AI 从业者必读：算力选型指南

从工作负载分层、加速卡四象限到供应商五维评估——把"按 TFLOPS 比价"升级成"按 TCO 选型"。九章云极智能研究院 50 页指南的精简版。

为什么算力选型成了 CXO 命题

过去十年企业采购 GPU 像采购服务器：算 TFLOPS、看价格、签合同。但当模型参数从 7B 跳到 671B、推理 token 数从百万级涨到百亿级，算力支出已经从 IT 预算的一行，演变为影响企业现金流、战略灵活性与合规边界的"战略级运营变量"。本文是九章云极智能研究院《AI 从业者必读：算力选型指南》的精简版，给一线从业者一套可直接套用的决策框架。

四大原则

需求导向：先回答"算力服务于什么业务"——训练 / 推理 / 实验，再决定型号。最常见的浪费是"按训练规格配置全部算力"，导致推理与实验任务背负无效成本。
性价比：性价比不是单卡价格，而是单位有效计算的成本。H200 单卡贵 30%，但在 70B 训练上 MFU 比 A100 高一倍以上，整体 TCO 反而更低。
长期适配：算力资产生命周期 4–5 年，但模型架构周期已压缩到 6–12 个月。硬件选型必须给软件栈、调度系统、模型替换留出"逃生窗口"。
安全合规：出口管制、数据分级、模型备案、跨境流转。算力不再是"买回来就能用"，而是"用得起来还要用得合规"。

选型四步流程

需求评估：把工作负载拆为稳态（核心模型推理、生产 RAG）、波动态（季节性训练、活动期推理峰值）、探索态（算法实验、数据预处理）。三者对成本确定性、SLA、可中断性的要求完全不同。
资源初选：按工作负载选加速卡 / 网络 / 存储组合。训练池优先 NVLink + IB，推理池优先 PCIe + RoCE，实验池可用消费级卡 + 普通以太网。
部署模式：自建 / 长期租赁 / 公有云按需 / 智算云池化，四种模式不是替代关系而是分层使用。具体匹配规则见下表。
供应商五维评估：性能（实测 MFU）、可靠性（年故障率 / SLA 赔付）、成本（含隐性 OPEX）、服务（响应时效、专家支持）、合规（资质、数据主权、退出机制）。

加速卡四象限

大规模训练：NVIDIA H200 / H800 / B200 + NVLink Switch + IB 400G。关键看 NVLink 带宽与显存大小，HBM 容量决定能不能塞下你的模型。
高并发推理：L40S / H20 / 国产推理卡。优先看显存带宽与每瓦 token 数，不要被峰值 TFLOPS 误导。
边缘 / 端侧：Jetson / Atlas / Ascend 推理卡。关键是功耗、温度区间与生态成熟度。
国产替代：已具备特定场景落地能力，但需为软件栈适配预留 1–3 个月工程投入，不要按"和 NVIDIA 一比一替换"的预期立项。

网络与存储别成短板

千卡训练里 30% 时间常常花在 AllReduce 上，网络拓扑（Fat-Tree / Dragonfly+ / Rail-Optimized）与 RDMA 实现（IB / RoCEv2）直接决定 MFU。存储侧训练池建议 GPU Direct + 并行文件系统（Lustre / GPFS），冷数据用对象存储分层；推理池则更看 KV cache 与权重的本地 NVMe 缓存命中。

2026 六大趋势速览

Chiplet + CPO（共封装光学）让单卡互联带宽再翻倍，推动 1.6T 网络落地。
软硬协同（Co-Design）：模型架构反向约束芯片设计，FP8 / FP4 成为主流。
Agentic AI 推动算力需求从"批训练"转向"持续推理 + 工具调用"，调度复杂度上升。
碳·算力度成为新计量维度，"绿色算力"进入采购评估。
UAI-MLIR 等统一编译栈正在打通异构后端，"一份代码多卡跑"成为可能。
推理普惠化：Token 单价进入毫厘时代，应用层创新爆发。

五个真实案例的快速结论

实验室共享池：把 H800 集群做成跨组共享资源池 + 配额制，平均利用率从 31% 提到 74%，同等预算多撑两倍课题组。
初创应用：头像生成类 SaaS 用智算云按 token 计费，峰值期不再为"备机"买单，毛利率从 23% 涨到 51%。
学生 LoRA：消费级 4090 + spot 实例足以完成 7B 微调，没必要租 H 卡。重点是数据质量与超参，不是算力规格。
复数神经网络：科研型小众架构在国产卡上反而更快上线，因为可以拿到深度技术支持。
具身智能 VLA：训练用百卡 H800 弹性池，推理下沉到边缘 + 国产推理卡，分层供给是关键。

给一线选型者的三个动作

把工作负载先拆成稳态 / 波动态 / 探索态，再决定每一类用哪种供给。不要把所有任务都按最严苛标准配置。
把供应商评估从"看牌价"升级到"看 TCO + 退出机制"。能不能换供应商、能不能调整规模、能不能降配，比单价更重要。
把合规、出口管制、资产处置纳入选型 D-1 阶段，别等 D+12 个月才发现卡用不了。

原文五十余页，覆盖完整决策框架、技术细节与案例。本文仅做摘要——更详细的指标计算、分层模型与五维评估打分表，可参考完整指南。

AI 从业者必读：算力选型指南

目录