把多租户隔离做到 Confidential Compute 等级

从 MIG + Confidential VM、RDMA GID 防伪到 NVMe Cryptographic Erase——一套让金融/政务客户合规审计直接过关的隔离方案。

背景

监管口径越收越紧，金融、政务客户对"算力是不是真的隔离"问得越来越细。光说"我们用 K8s namespace 隔离"已经不够看了——客户想要看到从硬件到 NCCL 集合通信的整条隔离链。这一篇是我们这两个月把九章智算云的多租户隔离做到 Confidential Compute 等级的全过程。

问题：默认 K8s 多租户的几个洞

同一物理节点上不同 namespace 的 Pod 共享 GPU 驱动，VRAM 残留可能跨租户读到
NCCL 集合通信走 RDMA，默认不带 GID 校验，恶意租户可以伪造 PD/QP 拿到流量
节点本地 NVMe 缓存不擦除，下一个租户拿到节点能恢复前一个租户的训练数据

第一刀：MIG + Confidential VM

H800A SXM5 的 MIG（Multi-Instance GPU）切片可以在硬件层把 VRAM 与 SM 分配做到强隔离。我们把 MIG 实例进一步包进 NVIDIA Confidential VM——VRAM 出芯片就加密，Hypervisor 看不到明文。结果：跨租户内存嗅探在硬件层就被堵住。

第二刀：RDMA GID-based 防伪

NCCL 走 RDMA 时，我们把每个租户的 QP 绑定到独立 GID 子网，在 ConnectX-7 上启用 SR-IOV PF 隔离。NCCL 拓扑文件由控制面下发，客户进程拿不到其他租户的 LID/GID：

NCCL_IB_GID_INDEX=3 NCCL_IB_HCA=mlx5_2:1,mlx5_3:1

额外好处：跨租户 AllReduce 互不干扰，尾延迟波动从 ±18% 降到 ±3%。

第三刀：节点回收前的 NVMe 安全擦除

实例释放后，控制面强制走 NVMe 的 format --ses=2（Cryptographic Erase），平均 11 秒擦完一块 7.68TB 盘，比 dd 全盘归零快两个数量级。擦除完成后才把节点标为可调度。

结论

整套方案目前已通过等保 2.0 三级与金融行业客户的渗透测试。落到产品上：用户在控制台开"安全合规模式"开关即可，定价比标准实例上浮 ~12%，但能让客户的合规审计直接过关——这对金融、政务客户是硬刚需。

把多租户隔离做到 Confidential Compute 等级

背景

问题：默认 K8s 多租户的几个洞

第一刀：MIG + Confidential VM

第二刀：RDMA GID-based 防伪

第三刀：节点回收前的 NVMe 安全擦除

结论

目录