任务详情
支持查看创建成功的任务详情,包括任务的基本信息、任务信息、容器组(Pods)、监控及日志。
操作步骤
-
登录控制台,单击产品中心/计算/极核训练菜单项,进入极核任务列表页面,如下图所示。

-
找到待查看的极核任务,默认进入任务信息,如下图所示。

| 序号 | 模块名称 | 描述 |
|---|---|---|
| ① | 基本信息 | 展示训练任务的核心元数据,包括任务名称)、状态、任务ID、创建人(liuxy)、智算中心、创建/开始/更新时间、优先级、来源及可编辑的任务描述等信息。 |
| ② | 任务配置 | 展示任务运行配置参数,包括框架、镜像地址、自动重试、超时配置、环境变量(MODEL_NAME_OR_PATH、PYTORCH_CUDA_ALLOC_CONF、DATASET_PATH)及启动命令。 |
| ③ | 资源配置 | 表格形式展示任务使用的计算资源,包括资源名称、GPU型号及数量、计算资源、节点数及参考价格。 |
| ④ | 存储配置 | 表格形式展示任务挂载的存储卷信息,包含存储类型、存储卷名称、状态、权限、已使用/配额、实例内访问路径及参考价格(当前暂无数据)。 |
| ⑤ | 任务运行信息 | 时间线形式展示任务各状态的流转时间及顺序,包括排队中、启动中、运行中、已完成等。 |
切换至"监控"Tab,您可查看 GPU 用量、GPU 显存用量、CPU 用量、内存用量等监控数据;通过折线图展示各节点(如 master-0、worker-0)的资源使用趋势,并以表格形式统计最新、平均、最大数值,支持自定义时间范围和自动刷新,帮助用户分析分布式训练任务的资源消耗和性能瓶颈。

切换至"日志"Tab,您查看全部节点的日志数据;支持通过关键词搜索、时间范围选择和节点筛选查看训练任务的实时运行日志,以终端风格展示各节点的日志输出(含时间戳、节点名称和详细内容),可查看训练进度、完成状态、耗时统计及系统警告等关键信息,并支持日志下载功能。

最后更新于
这篇文档对你有帮助吗?

