随着 AI 推理需求激增和英伟达高端 GPU 的昂贵与短缺,AMD 的 MI355X 凭借其显著的成本优势,正成为一个极具吸引力的“低价推理”方案。通过量化模型、选择合适的推理框架并修复软件生态中的兼容性问题,团队在 AMD 硬件上实现了接近英伟达的性能和更高的性价比。这表明,AI 领域的竞争关键已不再是纯粹的硬件比拼,而是逐渐转向软件支持与生态系统的完善。
AI 推理的高成本困境
当前,AI 模型的推理需求正在飞速增长,但市场上的高端 GPU 供应不足,尤其是英伟达的产品。
- 需求激增: 像 Claude Fable、GLM5.2 等前沿模型层出不穷,导致对计算资源的需求急剧上升。
- 供应短缺: 英伟达 Blackwell 等高端 GPU 供不应求,导致价格飞涨。
- 成本高昂: 最终结果是,运行这些 AI 模型的成本变得非常昂贵。
AMD:一个高性价比的替代方案
在英伟达主导的市场中,AMD 提供了一个隐藏的解决方案,其核心优势在于成本。
- 价格优势: 平均来看,AMD 的 MI355X GPU 比英伟达的 B300 便宜约 2.75 倍。
- 硬件相当: 在芯片层面,AMD Instinct MI350 系列的硬件规格与 Blackwell 具有可比性。
- 软件短板: AMD 的主要劣势在于软件生态。英伟达拥有强大的软件优势和“首日支持”,使得在其硬件上部署新模型非常迅速和顺畅。而 AMD 硬件通常需要数周的工程优化才能达到最佳性能,总是在追赶。
但随着优化工具的进步,这种软件差距正在被实时缩小。
用数据证明 AMD 的潜力
通过一系列优化,团队在 AMD MI355X 硬件上取得了优异的性能表现,尤其是在性价比方面。
在一个高缓存命中率的工作负载下,实现了 2626 tok/s/node 的总吞吐量。这一数字虽然只达到了英伟达 B200 性能的 80%,但其成本却不到 B200 的一半。
在 GLM5.2 模型的单流测试中,也达到了 213 tok/s 的速度。尽管这个数字没有登上排行榜榜首,但它在 每美元性能 上胜出。
实现高性能的技术路径
要充分发挥 AMD 硬件的潜力,需要一系列软件层面的调整和修复,而不是编写复杂的自定义代码。
选择量化与框架:
- 团队选择了 MXFP4 量化方案,因为它在保持模型性能的同时减小了模型体积。
- 在 vLLM, ATOM, 和 sglang 三个推理框架中,选择了 sglang,因为它能最好地利用量化优势且输出结果稳定。
修复和启用关键功能:
- sglang 的 ROCm (AMD 平台) 版本默认不支持“推测解码”这一关键提速功能。
- 第一个修复: 解决了一个模块命名不匹配导致程序崩溃的问题。仅此一项修复就带来了近 3 倍的单流吞吐量提升。
- 第二个修复: 为一个内核文件添加了一行简单的兼容性代码,从而解锁了更深层次的推测解码。
针对性优化:
- 对于长输入、高缓存的场景,性能瓶颈在于“预填充”阶段。
- 团队通过手动调整 MoE (Mixture of Experts) 内核的选择,解决了 sglang 在此场景下的性能回退问题,最终将吞吐量提升至 2626 tok/s/node。
为什么这很重要
这次的成功表明,在 AMD 硬件上实现顶级的性价比并非难事。整个过程虽然遇到了一些框架相关的错误,但值得注意的是,团队 没有编写任何自定义内核,仅仅是通过配置和修复现有软件就达成了目标。
在 AMD 平台上实现顶尖性能,正变得越来越关乎支持而非软件本身。CUDA 的护城河正在被实时侵蚀。
这标志着一个重要的转变:硬件不再是唯一的战场,软件生态的完善和快速支持正在成为决定未来竞争格局的关键。