九章智算云

创建任务

极核训练(HyperTrain)是一种基于 Kubernetes 的分布式任务训练服务,旨在解决企业级AI训练的算力与管理挑战,为用户提供资源隔离和成本可控的高性能训练环境。它通过极致封装与自动化的核心任务引擎,将复杂的基础设施管理、资源调度、分布式框架适配及环境依赖凝聚成一体化的核心服务接口,让用户无需关注底层运维即可一键发起AI模型训练任务,实现训练效能的极大提升。

前提条件

平台集成 PyTorch、DeepSpeed、MPI、TensorFlow 4类框架,支持用户基于已有框架创建任务。

  • 算力账户 DCU 余额 > 0
  • 现金账户余额 > 0
  • 企业已在当前智算中心开通 混闪-NAS全闪-NAS,且当前账号具备相应权限
  • 若使用私有镜像,企业应在当前智算中心开通 混闪-镜像

操作步骤

  1. 登录控制台,单击产品中心/计算/极核训练,进入极核任务列表页面,如下图所示。

    企业注册

  2. 单击创建任务按钮,进入任务参数配置页面,如下图所示。

    企业注册

    参数项参数说明配置要求参数示例是否必须
    任务名称训练任务的名称标识字母开头,支持字母、数字、连字符(-)、下划线(_),长度应为4-20字符。TRAIN-lyfo.csv
    模板训练任务使用的模板可使用预置模板或自定义模板-
    任务描述对训练任务的详细说明--
    智算中心任务运行的数据中心位置选择可用的智算中心即可北京五区
    框架训练使用的深度学习框架-PyTorch
    资源配置任务使用的GPU资源配置选择适合需求的GPU规格即可极核训练-GPU-H800A-1卡
    存储配置任务的存储资源类型及挂载路径选择适合需求的存储资源即可混闪-NAS
    镜像配置支持选择基础镜像、应用镜像、私有镜像。基础镜像和应用镜像平台预置;私有镜像指用户自定义镜像。满足环境要求-
    环境变量支持用户针对当前任务自定义配置环境变量。任务提交时,系统也会自动注入相应的系统变量,可参考默认环境变量中的内容-变量1=值1
    自动重试任务失败自动重试设置开关控制开启/关闭
    超时配置任务运行超时设置开关控制开启/关闭
    启动命令任务启动执行的命令-python train.py
    任务优先级任务调度优先级1-5级1 / 2 / 3 / 4 / 5
  3. 参数配置完成后单击立即提交任务,即可完成极核任务创建操作。

最后更新于

这篇文档对你有帮助吗?

目录