九章智算云

任务详情

支持查看创建成功的任务详情,包括任务的基本信息、任务信息、容器组(Pods)、监控及日志。

操作步骤

  1. 登录控制台,单击产品中心/计算/极核训练菜单项,进入极核任务列表页面,如下图所示。 企业注册

  2. 找到待查看的极核任务,默认进入任务信息,如下图所示。

企业注册

序号模块名称描述
基本信息展示训练任务的核心元数据,包括任务名称)、状态、任务ID、创建人(liuxy)、智算中心、创建/开始/更新时间、优先级、来源及可编辑的任务描述等信息。
任务配置展示任务运行配置参数,包括框架、镜像地址、自动重试、超时配置、环境变量(MODEL_NAME_OR_PATH、PYTORCH_CUDA_ALLOC_CONF、DATASET_PATH)及启动命令。
资源配置表格形式展示任务使用的计算资源,包括资源名称、GPU型号及数量、计算资源、节点数及参考价格。
存储配置表格形式展示任务挂载的存储卷信息,包含存储类型、存储卷名称、状态、权限、已使用/配额、实例内访问路径及参考价格(当前暂无数据)。
任务运行信息时间线形式展示任务各状态的流转时间及顺序,包括排队中、启动中、运行中、已完成等。

切换至"容器组(Pods)"Tab,您可查看Pods及访问Pods。

Pods 列表

支持查看及访问Pods(详见 容器组(Pods)详情章节)。

切换至"监控"Tab,您可查看 GPU 用量、GPU 显存用量、CPU 用量、内存用量等监控数据;通过折线图展示各节点(如 master-0、worker-0)的资源使用趋势,并以表格形式统计最新、平均、最大数值,支持自定义时间范围和自动刷新,帮助用户分析分布式训练任务的资源消耗和性能瓶颈。 企业注册

切换至"日志"Tab,您查看全部节点的日志数据;支持通过关键词搜索、时间范围选择和节点筛选查看训练任务的实时运行日志,以终端风格展示各节点的日志输出(含时间戳、节点名称和详细内容),可查看训练进度、完成状态、耗时统计及系统警告等关键信息,并支持日志下载功能。

企业注册

最后更新于

这篇文档对你有帮助吗?

目录