创建任务
极核训练(HyperTrain)是一种基于 Kubernetes 的分布式任务训练服务,旨在解决企业级AI训练的算力与管理挑战,为用户提供资源隔离和成本可控的高性能训练环境。它通过极致封装与自动化的核心任务引擎,将复杂的基础设施管理、资源调度、分布式框架适配及环境依赖凝聚成一体化的核心服务接口,让用户无需关注底层运维即可一键发起AI模型训练任务,实现训练效能的极大提升。
创建任务
平台集成 PyTorch、DeepSpeed、MPI、TensorFlow 4类框架,支持用户基于已有框架创建任务。
- 算力账户 DCU 余额大于0。
- 现金账户余额大于0。
- 企业已在当前智算中心开通NAS型大容量存储或NAS型高性能存储,且当前账号具备权限。
- 若使用私有镜像,企业应在当前智算中心开通镜像仓库。
主要操作
登录后进入 产品中心 -> 计算 -> 极核训练页面
点击页面中的开通 或 创建任务进入任务创建界面:

- 填写基本信息:

- 选择资源配置:

- 选择存储及镜像配置:

- 设置其他配置:

填写完成后提交任务,返回任务列表页面,已创建成功的任务将显示在列。
参数说明
| 参数 | 说明 |
|---|---|
| 任务名称 | 默认自动生成任务名称,并支持自定义 |
| 模板 | 基于已有模板创建任务或不使用模板 |
| 任务描述 | 任务的描述 |
| 智算中心 | 任务所在区域 |
| 框架 | 运行任务所需的框架,目前支持 PyTorch、DeepSpeed、MPI、TensorFlow 等。 |
| 资源配置 | 为运行当前任务配置的计算资源规格及节点数 |
| 存储配置 | 任务的存储资源类型及挂载路径 |
| 镜像配置 | 支持选择基础镜像、应用镜像、私有镜像。基础镜像和应用镜像为平台内预置的公共镜像;私有镜像指用户保存于私有镜像仓库中的自定义镜像。 |
| 环境变量(选填) | 支持用户针对当前任务自定义配置环境变量。任务提交时,系统也会自动注入相应的系统变量,可参考默认环境变量中的内容。 |
| 自动重试 | 当任务运行过程出现问题导致失败,支持根据设置的重试次数自动重新运行。关闭时任务失败后不自动重试。 |
| 超时配置 | 设置任务单次运行时长上限,超时后任务将自动取消。 |
| 启动命令 | 支持根据上传到存储中的文件配置相应的运行命令;平台预置公共镜像的默认工作目录为 /root,若使用自定义镜像以镜像设置的工作目录为准。 |
| 任务优先级 | 支持为排队中状态的任务设置优先级,数值越低优先级越高,高优先级的任务将优先被调度。 |