任务详情
任务创建成功后,您可以通过任务详情页全面了解任务的运行状况与配置信息。详情页提供多维度的信息展示,包括:任务基本信息(名称、状态、创建人等核心元数据)、详细的任务配置参数(框架、镜像、环境变量等)、资源与存储配置、实时容器组(Pods)状态、GPU/CPU/内存等多维度监控指标,以及完整的运行日志。通过集中化的任务详情视图,您可以快速定位问题、分析性能瓶颈,并高效管理训练任务的全生命周期。
操作步骤
-
登录九章智算云平台,单击产品中心/计算/极核训练菜单项,进入极核任务列表页面,如下图所示。

-
找到待查看的极核任务,默认进入任务信息,如下图所示。

序号 模块名称 描述 ① 基本信息 展示训练任务的核心元数据,包括任务名称、状态、任务ID、创建人、智算中心、创建/开始/更新时间、优先级、来源及可编辑的任务描述等信息。 ② 任务配置 展示任务运行配置参数,包括框架、镜像地址、自动重试、超时配置、环境变量(MODEL_NAME_OR_PATH、PYTORCH_CUDA_ALLOC_CONF、DATASET_PATH)及启动命令。 ③ 资源配置 表格形式展示任务使用的计算资源,包括资源名称、GPU型号及数量、计算资源、节点数及参考价格。 ④ 存储配置 表格形式展示任务挂载的存储卷信息,包含存储类型、存储卷名称、状态、权限、已使用/配额、实例内访问路径及参考价格(当前暂无数据)。 ⑤ 任务运行信息 时间线形式展示任务各状态的流转时间及顺序,包括排队中、启动中、运行中、已完成等。 切换至「监控」Tab,您可查看GPU用量、GPU显存用量、CPU用量、内存用量等监控数据;通过折线图展示各节点(如master-0、worker-0)的资源使用趋势,并以表格形式统计最新、平均、最大数值,支持自定义时间范围和自动刷新,帮助用户分析分布式训练任务的资源消耗和性能瓶颈。

切换至「日志」Tab,您查看全部节点的日志数据;支持通过关键词搜索、时间范围选择和节点筛选查看训练任务的实时运行日志,以终端风格展示各节点的日志输出(含时间戳、节点名称和详细内容),可查看训练进度、完成状态、耗时统计及系统警告等关键信息,并支持日志下载功能。

最后更新于
这篇文档对你有帮助吗?

