创建极核训练任务

ALab 支持基于当前开通的环境直接创建极核训练任务，实现从开发到生产训练的无缝衔接。您可以将开发环境中验证通过的代码、依赖配置和环境变量一键迁移至分布式训练集群，大幅提升大规模模型训练的效率。

核心优势：

一键迁移：开发环境配置自动同步，无需重复配置
环境一致：确保开发与训练环境完全一致，避免环境差异导致的问题
灵活扩展：支持从单机开发快速扩展到多机分布式训练
资源优化：根据训练需求灵活选择计算资源配置

前提条件

在创建极核训练任务前，请确保满足以下条件：

已成功开通 [ALab 开发环境]且环境状态为「运行中」；如尚未开通，可参考一键开通完成创建。
开发环境中的代码已完成调试并可以正常运行，确保训练任务能够顺利执行。
账号具备创建极核训练任务的权限；如权限不足，请联系企业管理员或联系我们获取支持。
拥有足够的计算资源配额（DCU 额度及可用 GPU 资源），满足训练任务的资源需求。

创建任务

登录九章智算云平台，单击产品中心/Alaya Lab菜单项，找到目标开发平台，点击其名称链接，进入Alaya Lab平台开发环境页面。

在ALab开发环境页面中，选择极核训练页签，单击新建按钮进入训练任务新建页面，如下图所示。

企业注册

配置任务基本信息，参数说明如下：

参数	说明	配置要求	示例
任务名称	必填，自定义训练任务名称，支持中文、字母、数字、下划线	字母开头，支持字母、数字、连字符(-)、下划线(_)，长度应为4-20字符	`resnet50-training`
智算中心	可选，任务运行的算力资源所在数据中心	下拉选择，如北京五区等。不同智算中心提供不同型号的GPU资源和网络环境	-
框架	必选，训练使用的深度学习框架	下拉选择，如 PyTorch、TensorFlow 等。系统会根据选择的框架预装相应的基础环境	-

单击下一步进入计算资源配置页面，根据智算中心资源情况选择合适的资源，资源状态说明如下。

状态	标识	含义
资源充足	绿色	资源充裕，可立即创建
资源紧张	黄色	资源有限，可能需要排队等待
资源不足	红色	资源暂不可用，建议选择其他规格

提示

GPU 型号：根据模型规模选择——H800A 适用于大规模分布式训练，L40S 适用于中小规模训练及推理。
卡数配置：单卡适合单机训练，多卡（2/4/8）支持数据并行或模型并行加速。
实例数量：设置大于 1 时，将启动多机分布式训练集群。
计费参考：单价以 DCU/时为单位，实际费用 = 单价 × 实例数 × 运行时长。

单击下一步，进入存储与启动配置页面，配置存储与启动命令。

参数	说明	是否必填	备注
存储类型	配置训练任务挂载的存储资源，包括存储类型、存储实例及容器挂载路径，用于数据集读取、代码运行及模型结果保存	是	建议统一挂载至`/root/ALab`或`/workspace`
环境变量	用于向训练容器传递运行时参数与系统配置，可用于GPU配置、分布式通信、模型缓存、API鉴权及超参数管理等场景	否	推荐在分布式训练、大模型训练及生产环境中统一使用环境变量管理运行配置
启动命令	用于定义训练任务启动方式，支持命令行或启动脚本形式，可用于单机训练、分布式训练及复杂训练流程编排	是	推荐复杂训练场景使用启动脚本统一管理环境初始化、数据预处理及分布式启动流程

参数配置完成后，单击提交按钮，即可完成创建操作。

注意

启动命令会在训练容器中执行，请确保路径和参数正确。
支持单机训练命令：python train.py --config config.yaml
支持分布式训练命令torchrun --nproc_per_node=8 train.py

查看与管理任务

在 ALab 中查看

登录九章智算云平台，单击产品中心/Alaya Lab 菜单项，找到目标开发环境，点击其名称链接进入ALab开发环境页面。
在ALab开发环境页面中，选择极核训练页签，可查看基于当前环境创建的所有训练任务，如下图所示。点击任务名称链接，进入任务详情页面，可查看任务的详细信息、容器组（Pods）、监控以及运行日志，详情请参考任务详情。

在极核训练模块查看

登录九章智算云平台，单击产品中心/计算/极核训练菜单项，进入任务列表页面。
点击目标任务名称链接，进入任务详情页面，可查看任务的详细信息、容器组（Pods）、监控以及运行日志，详情请参考任务详情。

相关文档

更多任务操作详见：

创建训练任务 - 详细的任务创建流程
训练任务详情 - 查看训练进度和指标
训练任务管理 - 任务生命周期管理操作

最后更新于

这篇文档对你有帮助吗？

修改配置

上一页

云容器实例（CCI）

下一页

目录

前提条件创建任务查看与管理任务在 ALab 中查看在极核训练模块查看相关文档