极核训练(HyperTrain)
极核训练(HyperTrain)是九章智算云提供的托管分布式训练平台。把 PyTorch/DeepSpeed/MPI/TensorFlow任务用模板提交进来,平台负责拓扑感知调度、断点续训、指标采集、容错恢复。
为什么用 HyperTrain
- 多元算力选择:支持H800A、L40S等多种高端GPU规格,覆盖1-8卡灵活配置,满足不同规模训练需求
- 多区域部署:支持北京五区、十四区等多个智算中心,便于就近选择
- 开箱即用:内置TensorFlow等主流深度学习框架,提供丰富的基础镜像和应用镜像
- 灵活存储:支持混闪-NAS等多种高性能存储类型,可按需扩展
- 深度定制:支持自定义环境变量、启动命令,满足个性化训练需求
- 透明计费:实时显示DCU/时参考价格,资源消费一目了然
快速开始
最后更新于
这篇文档对你有帮助吗?
