Synth Daily

性能越来越高,价格越来越低

随着 AI 推理需求激增和英伟达高端 GPU 的昂贵与短缺,AMD 的 MI355X 凭借其显著的成本优势,正成为一个极具吸引力的“低价推理”方案。通过量化模型、选择合适的推理框架并修复软件生态中的兼容性问题,团队在 AMD 硬件上实现了接近英伟达的性能和更高的性价比。这表明,AI 领域的竞争关键已不再是纯粹的硬件比拼,而是逐渐转向软件支持与生态系统的完善。

AI 推理的高成本困境

当前,AI 模型的推理需求正在飞速增长,但市场上的高端 GPU 供应不足,尤其是英伟达的产品。

  • 需求激增: 像 Claude Fable、GLM5.2 等前沿模型层出不穷,导致对计算资源的需求急剧上升。
  • 供应短缺: 英伟达 Blackwell 等高端 GPU 供不应求,导致价格飞涨。
  • 成本高昂: 最终结果是,运行这些 AI 模型的成本变得非常昂贵。

AMD:一个高性价比的替代方案

在英伟达主导的市场中,AMD 提供了一个隐藏的解决方案,其核心优势在于成本。

  • 价格优势: 平均来看,AMD 的 MI355X GPU 比英伟达的 B300 便宜约 2.75 倍
  • 硬件相当: 在芯片层面,AMD Instinct MI350 系列的硬件规格与 Blackwell 具有可比性。
  • 软件短板: AMD 的主要劣势在于软件生态。英伟达拥有强大的软件优势和“首日支持”,使得在其硬件上部署新模型非常迅速和顺畅。而 AMD 硬件通常需要数周的工程优化才能达到最佳性能,总是在追赶。

但随着优化工具的进步,这种软件差距正在被实时缩小。

用数据证明 AMD 的潜力

通过一系列优化,团队在 AMD MI355X 硬件上取得了优异的性能表现,尤其是在性价比方面。

在一个高缓存命中率的工作负载下,实现了 2626 tok/s/node 的总吞吐量。这一数字虽然只达到了英伟达 B200 性能的 80%,但其成本却不到 B200 的一半。

在 GLM5.2 模型的单流测试中,也达到了 213 tok/s 的速度。尽管这个数字没有登上排行榜榜首,但它在 每美元性能 上胜出。

实现高性能的技术路径

要充分发挥 AMD 硬件的潜力,需要一系列软件层面的调整和修复,而不是编写复杂的自定义代码。

  1. 选择量化与框架:

    • 团队选择了 MXFP4 量化方案,因为它在保持模型性能的同时减小了模型体积。
    • 在 vLLM, ATOM, 和 sglang 三个推理框架中,选择了 sglang,因为它能最好地利用量化优势且输出结果稳定。
  2. 修复和启用关键功能:

    • sglang 的 ROCm (AMD 平台) 版本默认不支持“推测解码”这一关键提速功能。
    • 第一个修复: 解决了一个模块命名不匹配导致程序崩溃的问题。仅此一项修复就带来了近 3 倍的单流吞吐量提升
    • 第二个修复: 为一个内核文件添加了一行简单的兼容性代码,从而解锁了更深层次的推测解码。
  3. 针对性优化:

    • 对于长输入、高缓存的场景,性能瓶颈在于“预填充”阶段。
    • 团队通过手动调整 MoE (Mixture of Experts) 内核的选择,解决了 sglang 在此场景下的性能回退问题,最终将吞吐量提升至 2626 tok/s/node

为什么这很重要

这次的成功表明,在 AMD 硬件上实现顶级的性价比并非难事。整个过程虽然遇到了一些框架相关的错误,但值得注意的是,团队 没有编写任何自定义内核,仅仅是通过配置和修复现有软件就达成了目标。

在 AMD 平台上实现顶尖性能,正变得越来越关乎支持而非软件本身。CUDA 的护城河正在被实时侵蚀。

这标志着一个重要的转变:硬件不再是唯一的战场,软件生态的完善和快速支持正在成为决定未来竞争格局的关键。