创建任务
极核训练(HyperTrain)是一种基于 Kubernetes 的分布式任务训练服务,旨在解决企业级AI训练的算力与管理挑战,为用户提供资源隔离和成本可控的高性能训练环境。它通过极致封装与自动化的核心任务引擎,将复杂的基础设施管理、资源调度、分布式框架适配及环境依赖凝聚成一体化的核心服务接口,让用户无需关注底层运维即可一键发起AI模型训练任务,实现训练效能的极大提升。
前提条件
平台集成 PyTorch、DeepSpeed、MPI、TensorFlow 4类框架,支持用户基于已有框架创建任务。
- 算力账户 DCU 余额 > 0
- 现金账户余额 > 0
- 企业已在当前智算中心开通 混闪-NAS或全闪-NAS,且当前账号具备相应权限
- 若使用私有镜像,企业应在当前智算中心开通 混闪-镜像。
操作步骤
-
登录控制台,单击产品中心/计算/极核训练,进入极核任务列表页面,如下图所示。

-
单击创建任务按钮,进入任务参数配置页面,如下图所示。

参数项 参数说明 配置要求 参数示例 是否必须 任务名称 训练任务的名称标识 字母开头,支持字母、数字、连字符(-)、下划线(_),长度应为4-20字符。 TRAIN-lyfo.csv 是 模板 训练任务使用的模板 可使用预置模板或自定义模板 - 否 任务描述 对训练任务的详细说明 - - 否 智算中心 任务运行的数据中心位置 选择可用的智算中心即可 北京五区 是 框架 训练使用的深度学习框架 - PyTorch 是 资源配置 任务使用的GPU资源配置 选择适合需求的GPU规格即可 极核训练-GPU-H800A-1卡 是 存储配置 任务的存储资源类型及挂载路径 选择适合需求的存储资源即可 混闪-NAS 否 镜像配置 支持选择基础镜像、应用镜像、私有镜像。基础镜像和应用镜像平台预置;私有镜像指用户自定义镜像。 满足环境要求 - 是 环境变量 支持用户针对当前任务自定义配置环境变量。任务提交时,系统也会自动注入相应的系统变量,可参考 默认环境变量中的内容- 变量1=值1 否 自动重试 任务失败自动重试设置 开关控制 开启/关闭 否 超时配置 任务运行超时设置 开关控制 开启/关闭 否 启动命令 任务启动执行的命令 - python train.py 否 任务优先级 任务调度优先级 1-5级 1 / 2 / 3 / 4 / 5 否 -
参数配置完成后单击立即提交任务,即可完成极核任务创建操作。
最后更新于
这篇文档对你有帮助吗?
