九章智算云

AI 从业者必读:算力选型指南

从工作负载分层、加速卡四象限到供应商五维评估——把"按 TFLOPS 比价"升级成"按 TCO 选型"。九章云极智能研究院 50 页指南的精简版。

为什么算力选型成了 CXO 命题

过去十年企业采购 GPU 像采购服务器:算 TFLOPS、看价格、签合同。但当模型参数从 7B 跳到 671B、推理 token 数从百万级涨到百亿级,算力支出已经从 IT 预算的一行,演变为影响企业现金流、战略灵活性与合规边界的"战略级运营变量"。本文是九章云极智能研究院《AI 从业者必读:算力选型指南》的精简版,给一线从业者一套可直接套用的决策框架。

四大原则

  • 需求导向:先回答"算力服务于什么业务"——训练 / 推理 / 实验,再决定型号。最常见的浪费是"按训练规格配置全部算力",导致推理与实验任务背负无效成本。
  • 性价比:性价比不是单卡价格,而是单位有效计算的成本。H200 单卡贵 30%,但在 70B 训练上 MFU 比 A100 高一倍以上,整体 TCO 反而更低。
  • 长期适配:算力资产生命周期 4–5 年,但模型架构周期已压缩到 6–12 个月。硬件选型必须给软件栈、调度系统、模型替换留出"逃生窗口"。
  • 安全合规:出口管制、数据分级、模型备案、跨境流转。算力不再是"买回来就能用",而是"用得起来还要用得合规"。

选型四步流程

  1. 需求评估:把工作负载拆为稳态(核心模型推理、生产 RAG)、波动态(季节性训练、活动期推理峰值)、探索态(算法实验、数据预处理)。三者对成本确定性、SLA、可中断性的要求完全不同。
  2. 资源初选:按工作负载选加速卡 / 网络 / 存储组合。训练池优先 NVLink + IB,推理池优先 PCIe + RoCE,实验池可用消费级卡 + 普通以太网。
  3. 部署模式:自建 / 长期租赁 / 公有云按需 / 智算云池化,四种模式不是替代关系而是分层使用。具体匹配规则见下表。
  4. 供应商五维评估:性能(实测 MFU)、可靠性(年故障率 / SLA 赔付)、成本(含隐性 OPEX)、服务(响应时效、专家支持)、合规(资质、数据主权、退出机制)。

加速卡四象限

  • 大规模训练:NVIDIA H200 / H800 / B200 + NVLink Switch + IB 400G。关键看 NVLink 带宽与显存大小,HBM 容量决定能不能塞下你的模型。
  • 高并发推理:L40S / H20 / 国产推理卡。优先看显存带宽与每瓦 token 数,不要被峰值 TFLOPS 误导。
  • 边缘 / 端侧:Jetson / Atlas / Ascend 推理卡。关键是功耗、温度区间与生态成熟度。
  • 国产替代:已具备特定场景落地能力,但需为软件栈适配预留 1–3 个月工程投入,不要按"和 NVIDIA 一比一替换"的预期立项。

网络与存储别成短板

千卡训练里 30% 时间常常花在 AllReduce 上,网络拓扑(Fat-Tree / Dragonfly+ / Rail-Optimized)与 RDMA 实现(IB / RoCEv2)直接决定 MFU。存储侧训练池建议 GPU Direct + 并行文件系统(Lustre / GPFS),冷数据用对象存储分层;推理池则更看 KV cache 与权重的本地 NVMe 缓存命中。

2026 六大趋势速览

  • Chiplet + CPO(共封装光学)让单卡互联带宽再翻倍,推动 1.6T 网络落地。
  • 软硬协同(Co-Design):模型架构反向约束芯片设计,FP8 / FP4 成为主流。
  • Agentic AI 推动算力需求从"批训练"转向"持续推理 + 工具调用",调度复杂度上升。
  • 碳·算力度成为新计量维度,"绿色算力"进入采购评估。
  • UAI-MLIR 等统一编译栈正在打通异构后端,"一份代码多卡跑"成为可能。
  • 推理普惠化:Token 单价进入毫厘时代,应用层创新爆发。

五个真实案例的快速结论

  • 实验室共享池:把 H800 集群做成跨组共享资源池 + 配额制,平均利用率从 31% 提到 74%,同等预算多撑两倍课题组。
  • 初创应用:头像生成类 SaaS 用智算云按 token 计费,峰值期不再为"备机"买单,毛利率从 23% 涨到 51%。
  • 学生 LoRA:消费级 4090 + spot 实例足以完成 7B 微调,没必要租 H 卡。重点是数据质量与超参,不是算力规格。
  • 复数神经网络:科研型小众架构在国产卡上反而更快上线,因为可以拿到深度技术支持。
  • 具身智能 VLA:训练用百卡 H800 弹性池,推理下沉到边缘 + 国产推理卡,分层供给是关键。

给一线选型者的三个动作

  1. 把工作负载先拆成稳态 / 波动态 / 探索态,再决定每一类用哪种供给。不要把所有任务都按最严苛标准配置。
  2. 把供应商评估从"看牌价"升级到"看 TCO + 退出机制"。能不能换供应商、能不能调整规模、能不能降配,比单价更重要。
  3. 把合规、出口管制、资产处置纳入选型 D-1 阶段,别等 D+12 个月才发现卡用不了。

原文五十余页,覆盖完整决策框架、技术细节与案例。本文仅做摘要——更详细的指标计算、分层模型与五维评估打分表,可参考完整指南。

最后更新于

这篇文档对你有帮助吗?

目录