性能越来越高，价格越来越低

随着 AI 推理需求激增和英伟达高端 GPU 的昂贵与短缺，AMD 的 MI355X 凭借其显著的成本优势，正成为一个极具吸引力的“低价推理”方案。通过量化模型、选择合适的推理框架并修复软件生态中的兼容性问题，团队在 AMD 硬件上实现了接近英伟达的性能和更高的性价比。这表明，AI 领域的竞争关键已不再是纯粹的硬件比拼，而是逐渐转向软件支持与生态系统的完善。

AI 推理的高成本困境

当前，AI 模型的推理需求正在飞速增长，但市场上的高端 GPU 供应不足，尤其是英伟达的产品。

需求激增： 像 Claude Fable、GLM5.2 等前沿模型层出不穷，导致对计算资源的需求急剧上升。
供应短缺： 英伟达 Blackwell 等高端 GPU 供不应求，导致价格飞涨。
成本高昂： 最终结果是，运行这些 AI 模型的成本变得非常昂贵。

AMD：一个高性价比的替代方案

在英伟达主导的市场中，AMD 提供了一个隐藏的解决方案，其核心优势在于成本。

价格优势： 平均来看，AMD 的 MI355X GPU 比英伟达的 B300 便宜约 2.75 倍。
硬件相当： 在芯片层面，AMD Instinct MI350 系列的硬件规格与 Blackwell 具有可比性。
软件短板： AMD 的主要劣势在于软件生态。英伟达拥有强大的软件优势和“首日支持”，使得在其硬件上部署新模型非常迅速和顺畅。而 AMD 硬件通常需要数周的工程优化才能达到最佳性能，总是在追赶。

但随着优化工具的进步，这种软件差距正在被实时缩小。

用数据证明 AMD 的潜力

通过一系列优化，团队在 AMD MI355X 硬件上取得了优异的性能表现，尤其是在性价比方面。

在一个高缓存命中率的工作负载下，实现了 2626 tok/s/node 的总吞吐量。这一数字虽然只达到了英伟达 B200 性能的 80%，但其成本却不到 B200 的一半。

在 GLM5.2 模型的单流测试中，也达到了 213 tok/s 的速度。尽管这个数字没有登上排行榜榜首，但它在 每美元性能 上胜出。

实现高性能的技术路径

要充分发挥 AMD 硬件的潜力，需要一系列软件层面的调整和修复，而不是编写复杂的自定义代码。

选择量化与框架：
- 团队选择了 MXFP4 量化方案，因为它在保持模型性能的同时减小了模型体积。
- 在 vLLM, ATOM, 和 sglang 三个推理框架中，选择了 sglang，因为它能最好地利用量化优势且输出结果稳定。
修复和启用关键功能：
- sglang 的 ROCm (AMD 平台) 版本默认不支持“推测解码”这一关键提速功能。
- 第一个修复： 解决了一个模块命名不匹配导致程序崩溃的问题。仅此一项修复就带来了近 3 倍的单流吞吐量提升。
- 第二个修复： 为一个内核文件添加了一行简单的兼容性代码，从而解锁了更深层次的推测解码。
针对性优化：
- 对于长输入、高缓存的场景，性能瓶颈在于“预填充”阶段。
- 团队通过手动调整 MoE (Mixture of Experts) 内核的选择，解决了 sglang 在此场景下的性能回退问题，最终将吞吐量提升至 2626 tok/s/node。

为什么这很重要

这次的成功表明，在 AMD 硬件上实现顶级的性价比并非难事。整个过程虽然遇到了一些框架相关的错误，但值得注意的是，团队 没有编写任何自定义内核，仅仅是通过配置和修复现有软件就达成了目标。

在 AMD 平台上实现顶尖性能，正变得越来越关乎支持而非软件本身。CUDA 的护城河正在被实时侵蚀。

这标志着一个重要的转变：硬件不再是唯一的战场，软件生态的完善和快速支持正在成为决定未来竞争格局的关键。