把多租户隔离做到 Confidential Compute 等级
从 MIG + Confidential VM、RDMA GID 防伪到 NVMe Cryptographic Erase——一套让金融/政务客户合规审计直接过关的隔离方案。
背景
监管口径越收越紧,金融、政务客户对"算力是不是真的隔离"问得越来越细。光说"我们用 K8s namespace 隔离"已经不够看了——客户想要看到从硬件到 NCCL 集合通信的整条隔离链。这一篇是我们这两个月把九章智算云的多租户隔离做到 Confidential Compute 等级的全过程。
问题:默认 K8s 多租户的几个洞
- 同一物理节点上不同 namespace 的 Pod 共享 GPU 驱动,VRAM 残留可能跨租户读到
- NCCL 集合通信走 RDMA,默认不带 GID 校验,恶意租户可以伪造 PD/QP 拿到流量
- 节点本地 NVMe 缓存不擦除,下一个租户拿到节点能恢复前一个租户的训练数据
第一刀:MIG + Confidential VM
H100 SXM5 的 MIG(Multi-Instance GPU)切片可以在硬件层把 VRAM 与 SM 分配做到强隔离。我们把 MIG 实例进一步包进 NVIDIA Confidential VM——VRAM 出芯片就加密,Hypervisor 看不到明文。结果:跨租户内存嗅探在硬件层就被堵住。
第二刀:RDMA GID-based 防伪
NCCL 走 RDMA 时,我们把每个租户的 QP 绑定到独立 GID 子网,在 ConnectX-7 上启用 SR-IOV PF 隔离。NCCL 拓扑文件由控制面下发,客户进程拿不到其他租户的 LID/GID:
NCCL_IB_GID_INDEX=3 NCCL_IB_HCA=mlx5_2:1,mlx5_3:1额外好处:跨租户 AllReduce 互不干扰,尾延迟波动从 ±18% 降到 ±3%。
第三刀:节点回收前的 NVMe 安全擦除
实例释放后,控制面强制走 NVMe 的 format --ses=2(Cryptographic Erase),平均 11 秒擦完一块 7.68TB 盘,比 dd 全盘归零快两个数量级。擦除完成后才把节点标为可调度。
结论
整套方案目前已通过等保 2.0 三级与金融行业客户的渗透测试。落到产品上:用户在控制台开"安全合规模式"开关即可,定价比标准实例上浮 ~12%,但能让客户的合规审计直接过关——这对金融、政务客户是硬刚需。
最后更新于
