创建极核训练任务
ALab 支持基于当前开通的环境直接创建极核训练任务,实现从开发到生产训练的无缝衔接。您可以将开发环境中验证通过的代码、依赖配置和环境变量一键迁移至分布式训练集群,大幅提升大规模模型训练的效率。
核心优势:
- 一键迁移:开发环境配置自动同步,无需重复配置
- 环境一致:确保开发与训练环境完全一致,避免环境差异导致的问题
- 灵活扩展:支持从单机开发快速扩展到多机分布式训练
- 资源优化:根据训练需求灵活选择计算资源配置
前提条件
在创建极核训练任务前,请确保满足以下条件:
- 已成功开通 [ALab 开发环境]且环境状态为「运行中」;如尚未开通,可参考一键开通完成创建。
- 开发环境中的代码已完成调试并可以正常运行,确保训练任务能够顺利执行。
- 账号具备创建极核训练任务的权限;如权限不足,请联系企业管理员或联系我们获取支持。
- 拥有足够的计算资源配额(DCU 额度及可用 GPU 资源),满足训练任务的资源需求。
创建任务
-
登录九章智算云平台,单击 产品中心/Alaya Lab菜单项,找到目标开发平台,点击其名称链接,进入Alaya Lab平台开发环境页面。
-
在ALab开发环境页面中,选择极核训练页签,单击新建按钮进入训练任务新建页面,如下图所示。

- 配置任务基本信息,参数说明如下:
参数 说明 配置要求 示例 任务名称 必填,自定义训练任务名称,支持中文、字母、数字、下划线 字母开头,支持字母、数字、连字符(-)、下划线(_),长度应为4-20字符 resnet50-training智算中心 可选,任务运行的算力资源所在数据中心 下拉选择,如北京五区等。不同智算中心提供不同型号的GPU资源和网络环境 - 框架 必选,训练使用的深度学习框架 下拉选择,如 PyTorch、TensorFlow 等。系统会根据选择的框架预装相应的基础环境 - - 单击下一步进入计算资源配置页面,根据智算中心资源情况选择合适的资源,资源状态说明如下。
状态 标识 含义 资源充足 绿色 资源充裕,可立即创建 资源紧张 黄色 资源有限,可能需要排队等待 资源不足 红色 资源暂不可用,建议选择其他规格 提示
- GPU 型号:根据模型规模选择——H800A 适用于大规模分布式训练,L40S 适用于中小规模训练及推理。
- 卡数配置:单卡适合单机训练,多卡(2/4/8)支持数据并行或模型并行加速。
- 实例数量:设置大于 1 时,将启动多机分布式训练集群。
- 计费参考:单价以 DCU/时为单位,实际费用 = 单价 × 实例数 × 运行时长。
- 单击下一步,进入存储与启动配置页面,配置存储与启动命令。
参数 说明 是否必填 备注 存储类型 配置训练任务挂载的存储资源,包括存储类型、存储实例及容器挂载路径,用于数据集读取、代码运行及模型结果保存 是 建议统一挂载至 /root/ALab或/workspace环境变量 用于向训练容器传递运行时参数与系统配置,可用于GPU配置、分布式通信、模型缓存、API鉴权及超参数管理等场景 否 推荐在分布式训练、大模型训练及生产环境中统一使用环境变量管理运行配置 启动命令 用于定义训练任务启动方式,支持命令行或启动脚本形式,可用于单机训练、分布式训练及复杂训练流程编排 是 推荐复杂训练场景使用启动脚本统一管理环境初始化、数据预处理及分布式启动流程 -
参数配置完成后,单击提交按钮,即可完成创建操作。
注意
- 启动命令会在训练容器中执行,请确保路径和参数正确。
- 支持单机训练命令:
python train.py --config config.yaml - 支持分布式训练命令
torchrun --nproc_per_node=8 train.py
查看与管理任务
在 ALab 中查看
- 登录九章智算云平台,单击 产品中心/Alaya Lab 菜单项,找到目标开发环境,点击其名称链接进入ALab开发环境页面。
- 在ALab开发环境页面中,选择 极核训练 页签,可查看基于当前环境创建的所有训练任务,如下图所示。
点击任务名称链接,进入任务详情页面,可查看任务的详细信息、容器组(Pods)、监控以及运行日志,详情请参考任务详情。
在极核训练模块查看
相关文档
更多任务操作详见:
最后更新于
这篇文档对你有帮助吗?
