Synth Daily

深入探秘亚马逊Trainium实验室:赢得Anthropic、OpenAI甚至苹果青睐的芯片

亚马逊正在通过其自研的 Trainium 系列 AI 芯片,试图打破英伟达在芯片市场的垄断地位。通过与 OpenAI 达成价值 500 亿美元的合作协议,以及与 Anthropic苹果 的深度绑定,亚马逊展示了其在降低 AI 训练和推理成本方面的巨大潜力。Trainium 芯片不仅在性能上追赶行业领先水平,更凭借 50% 的成本优势 和高度集成的硬件生态系统,成为 AWS 云服务的核心竞争力,预示着 AI 计算正从通用硬件向深度定制化硬件转型。

核心驱动力:更低成本与更高效率

亚马逊的战略逻辑非常直接:观察市场需求,然后制造出价格更低、性能对等的内部替代品。

  • 极高的性价比: 与传统的云服务器相比,运行在亚马逊专用服务器上的 Trainium 芯片,在同等性能下能将运行成本降低约 50%
  • 从训练转向推理: 虽然 Trainium 最初侧重于模型训练,但现在已针对推理(即运行 AI 模型生成响应的过程)进行了优化。目前,推理是整个行业的性能瓶颈,而 Trainium2 承担了亚马逊 Bedrock 服务中大部分的推理流量。
  • 极低的迁移门槛: 开发者最担心更换硬件带来的代码重构。亚马逊让 Trainium 支持了 PyTorch 等流行框架,工程团队表示,开发者通常只需修改一行代码并重新编译,就能让模型在 Trainium 上运行。

顶级 AI 巨头的背书

Trainium 并非实验室里的原型产品,它已经在大规模商用中证明了自己。

  • OpenAI 的巨量需求: 亚马逊承诺为 OpenAI 提供 2 吉瓦(GW)的 Trainium 计算能力。这是一个惊人的规模,目前甚至连亚马逊自有的服务都在争夺这些产能。
  • Anthropic 的深度绑定: 知名 AI 实验室 Anthropic 是 Trainium 的头号用户,其 Claude 模型运行在超过 100 万颗 Trainium2 芯片上。
  • 苹果的罕见赞誉: 苹果公司在 2024 年公开称赞了该团队设计的 Graviton 处理器和 Inferentia 推理芯片,并对当时的 Trainium 表示了高度关注。

全栈硬件生态:不只是芯片

亚马逊的优势在于它不仅设计芯片,还重新发明了支撑芯片运行的整个物理架构。

  • 网络与连接: 通过自研的 Neuron 交换机,Trainium3 芯片可以实现网格化互联,大幅降低延迟。
  • 散热技术革命: 最新的 Trainium3 芯片已从风冷转向液冷技术。这不仅提升了能效,还解决了高性能计算中的散热难题。
  • 垂直整合: 团队还设计了名为 Nitro 的硬件软件组合,以及被称为 “Sleds” 的服务器托架。这种对硬件每一个环节的控制,旨在最大限度地压榨性能并降低成本。

实验室幕后:高压下的“激活”时刻

这些芯片诞生于位于奥斯汀的实验室,其研发过程充满了高强度的挑战。

“芯片激活(Bring-up)就像是一场盛大的通宵派对。你得守在这里,连续几周昼夜不停地工作,直到证明它真的能跑通。”

  • 暴力解决问题: 在 Trainium3 的测试阶段,由于原型芯片的散热片尺寸不匹配导致无法启动,工程师们直接用打磨机磨掉了多余的金属。
  • 全天候作业: 为了确保芯片能尽快进入量产并部署到数据中心,团队在关键节点通常会连续三到四周 24 小时待命
  • CEO 的高度关注: 亚马逊首席执行官安迪·贾西(Andy Jassy)密切关注该实验室的进展,并将 Trainium 视为 AWS 业务中最令人兴奋的技术之一。目前,这已发展成为一个价值数十亿美元的业务。