九章智算云

任务详情

任务创建成功后,您可以通过任务详情页全面了解任务的运行状况与配置信息。详情页提供多维度的信息展示,包括:任务基本信息(名称、状态、创建人等核心元数据)、详细的任务配置参数(框架、镜像、环境变量等)、资源与存储配置、实时容器组(Pods)状态、GPU/CPU/内存等多维度监控指标,以及完整的运行日志。通过集中化的任务详情视图,您可以快速定位问题、分析性能瓶颈,并高效管理训练任务的全生命周期。

操作步骤

  1. 登录九章智算云平台,单击产品中心/计算/极核训练菜单项,进入极核任务列表页面,如下图所示。 企业注册

  2. 找到待查看的极核任务,默认进入任务信息,如下图所示。

    企业注册

    序号模块名称描述
    基本信息展示训练任务的核心元数据,包括任务名称、状态、任务ID、创建人、智算中心、创建/开始/更新时间、优先级、来源及可编辑的任务描述等信息。
    任务配置展示任务运行配置参数,包括框架、镜像地址、自动重试、超时配置、环境变量(MODEL_NAME_OR_PATH、PYTORCH_CUDA_ALLOC_CONF、DATASET_PATH)及启动命令。
    资源配置表格形式展示任务使用的计算资源,包括资源名称、GPU型号及数量、计算资源、节点数及参考价格。
    存储配置表格形式展示任务挂载的存储卷信息,包含存储类型、存储卷名称、状态、权限、已使用/配额、实例内访问路径及参考价格(当前暂无数据)。
    任务运行信息时间线形式展示任务各状态的流转时间及顺序,包括排队中、启动中、运行中、已完成等。

    切换至「容器组(Pods)」Tab,您可查看Pods及访问Pods。

    Pods 列表

    支持查看及访问Pods(详见 容器组(Pods)详情章节)。

    切换至「监控」Tab,您可查看GPU用量、GPU显存用量、CPU用量、内存用量等监控数据;通过折线图展示各节点(如master-0、worker-0)的资源使用趋势,并以表格形式统计最新、平均、最大数值,支持自定义时间范围和自动刷新,帮助用户分析分布式训练任务的资源消耗和性能瓶颈。 企业注册

    切换至「日志」Tab,您查看全部节点的日志数据;支持通过关键词搜索、时间范围选择和节点筛选查看训练任务的实时运行日志,以终端风格展示各节点的日志输出(含时间戳、节点名称和详细内容),可查看训练进度、完成状态、耗时统计及系统警告等关键信息,并支持日志下载功能。

    企业注册

最后更新于

这篇文档对你有帮助吗?

目录