技术分享
工程团队的实战记录——推理调优、千卡训练、网络拓扑、合规架构、算力选型与降本案例。每月更新。
2026年5月7 篇
GPU 集群的 IB 组网入门——从带宽到 rail-aligned 拓扑
为什么大模型集群非要 InfiniBand,rail-aligned 是怎么帮你省 30% 训练时间的,以及现场最常用的 ibstat / ibdev2netdev / ib_write_bw 套路。
NCCL-tests 实战——多机多卡上线前的"必修体检"
一个集群刚拉起来,先别忙着跑训练。一套 NCCL-tests 跑下来,busbw 数字就告诉你它能不能跑大模型——下面是判读方法。
HuggingFace 模型权重加速下载实战
一个 70B 模型 140GB,从 huggingface.co 直连要 4 小时,从 hf-mirror 跑满千兆只要 22 分钟——给一份当下能用的方案集合。
GPU 监控指标与 XID 故障速查——一线运维的 6 张表
nvidia-smi 看什么、DCGM 看什么、出现 XID 79 / XID 31 / XID 119 该怎么判定,是给运维和故障升级用的速查手册。
用 uv 替代 pip / poetry:AI 项目的包管理 + 源配置
pip 装一套 vLLM 全家桶要 80 秒,uv 8 秒——更重要的是它锁文件干净、跨机可复现,下面给一份 GPU 项目的实战配置。
给 AI 工程师的 Kubernetes 速通——概念与最小可用方案
Pod、Deployment、Job、PVC、StatefulSet——只讲在 GPU 工作流里真正会用到的那部分,不讲全套 K8s。
Docker 基本使用与镜像源配置(2026)
拉镜像动辄超时、Docker Hub 限速、公共加速器一个个停摆——这是我们 2026 年在客户现场用的实际配置。
