分布式训练
分布式训练任务 API 文档
分布式训练(Distributed Training)提供基于 Kubernetes 的多机多卡训练任务编排能力,支持任务模版、容器组(Pod)管理、端口开放、日志与监控等完整生命周期接口。
概述
- 多机多卡:按资源配置拉起分布式训练任务
- 任务模版:常用配置保存为模版,一键复用
- 容器组管理:查看 Pod 基本信息、资源、调度、事件与 YAML
- 可观测:任务/Pod 级别的日志、监控与 GPU 指标
所有接口共用统一鉴权,详见 API 指南 · 鉴权。
接口列表
任务管理
任务模版
容器组(Pod)
端口管理
日志与监控
订阅与资源
最后更新于
