弹性容器集群(VKS)
弹性容器集群(Virtual Kubernetes Service,VKS)是九章智算云提供的托管Kubernetes服务,原生支持GPU调度、跨节点RDMA、共享/动态存储与服务发布,让训练与推理工作负载真正按需调用GPU。
核心能力
- GPU资源:H800/L40S等多种型号,标签化申请,按GPU数量比例分配CPU与内存。
- 跨节点RDMA:内置IB/RoCE,YAML中一行「rdma/rdma_shared_device_a」即可启用。
- 持久化存储:静态PVC多账号共享+动态PVC按需声明,屏蔽底层NAS/块存储细节。
- 服务发布:内置「ServiceExporter」,自动生成公网域名,无需额外申请负载均衡。
- 多租户:主账号统一授权管理,独享集群支持用户级并行度与消纳规则。
学习路径
基本概念
Pod、Workload、Service、PVC、Namespace…常用名词速查
授权弹性容器集群
主账号给企业成员授权使用集群
使用弹性容器集群
下载kubeconfig,5分钟连上集群
集群详情
资源管理、扩缩容、并行度与消纳规则
GPU资源
GPU型号表与YAML申请示例
跨节点RDMA
在Pod中启用高性能网络
声明存储
静态与动态 PVC 的声明和挂载
创建容器
Pod与Deployment模板
创建服务
集群内服务暴露与访问
发布服务
ServiceExporter 把服务推到公网
进阶实践
下面这些是 VKS 上的常用扩展场景,文档放在了实践库里:
-
远程开发SSH · 浏览器版VSCode · Jupyter · Dev Containers · DevPod
-
包管理Helm 的使用
VKS vs CCI
CCI 适合单容器临时跑任务;VKS 适合多容器、多服务、需要编排的平台化场景。两者底层共用同一套 GPU 资源池,可混合使用。
最后更新于
这篇文档对你有帮助吗?
