跳到主要内容

创建任务

极核训练(HyperTrain)是一种基于 Kubernetes 的分布式任务训练服务,旨在解决企业级AI训练的算力与管理挑战,为用户提供资源隔离和成本可控的高性能训练环境。它通过极致封装与自动化的核心任务引擎,将复杂的基础设施管理、资源调度、分布式框架适配及环境依赖凝聚成一体化的核心服务接口,让用户无需关注底层运维即可一键发起AI模型训练任务,实现训练效能的极大提升。

创建任务

平台集成 PyTorch、DeepSpeed、MPI、TensorFlow 4类框架,支持用户基于已有框架创建任务。

  • 算力账户 DCU 余额大于0。
  • 现金账户余额大于0。
  • 企业已在当前智算中心开通NAS型大容量存储或NAS型高性能存储,且当前账号具备权限。
  • 若使用私有镜像,企业应在当前智算中心开通镜像仓库。

主要操作

登录后进入 产品中心 -> 计算 -> 极核训练页面

点击页面中的开通创建任务进入任务创建界面:

alt text

  • 填写基本信息:

alt text

  • 选择资源配置:

alt text

  • 选择存储及镜像配置:

alt text

  • 设置其他配置:

alt text

填写完成后提交任务,返回任务列表页面,已创建成功的任务将显示在列。

参数说明

参数说明
任务名称默认自动生成任务名称,并支持自定义
模板基于已有模板创建任务或不使用模板
任务描述任务的描述
智算中心任务所在区域
框架运行任务所需的框架,目前支持 PyTorch、DeepSpeed、MPI、TensorFlow 等。
资源配置为运行当前任务配置的计算资源规格及节点数
存储配置任务的存储资源类型及挂载路径
镜像配置支持选择基础镜像、应用镜像、私有镜像。基础镜像和应用镜像为平台内预置的公共镜像;私有镜像指用户保存于私有镜像仓库中的自定义镜像。
环境变量(选填)支持用户针对当前任务自定义配置环境变量。任务提交时,系统也会自动注入相应的系统变量,可参考默认环境变量中的内容。
自动重试当任务运行过程出现问题导致失败,支持根据设置的重试次数自动重新运行。关闭时任务失败后不自动重试。
超时配置设置任务单次运行时长上限,超时后任务将自动取消。
启动命令支持根据上传到存储中的文件配置相应的运行命令;平台预置公共镜像的默认工作目录为 /root,若使用自定义镜像以镜像设置的工作目录为准。
任务优先级支持为排队中状态的任务设置优先级,数值越低优先级越高,高优先级的任务将优先被调度。