Synth Daily

我们第八代 TPU:双芯片助力智能新时代

谷歌发布了第八代定制 AI 芯片,包含两款专门设计的型号:TPU 8t 用于大规模模型训练,而 TPU 8i 用于高速推理。这些芯片旨在满足 AI 代理(AI agents)复杂、多步骤工作流程的需求,同时显著提升了计算性能和能源效率。TPU 8t 通过强大的算力和扩展能力缩短模型开发周期,TPU 8i 则优化了延迟和内存带宽,以支持快速协作的 AI 代理。这两款芯片的推出,标志着 AI 基础设施向着更高效、更专业化的方向发展。

迎接 AI 代理时代

在 AI 代理的时代,模型需要解决问题、执行多步骤工作流程,并在持续的循环中从自身行动中学习。这给基础设施带来了全新的要求。第八代 TPU 芯片,即 TPU 8tTPU 8i,正是为了应对这些挑战而设计的。它们与 Google DeepMind 合作开发,旨在处理最苛刻的 AI 工作负载,并适应不断发展的模型架构。

通过将芯片与硬件、网络和软件(包括模型架构和应用需求)进行协同设计,我们可以提供显著更高的能源效率和绝对性能。

为满足不同需求而设计的两款芯片

硬件的开发周期远长于软件。谷歌几年前就预见到,随着前沿 AI 模型大规模部署,用户对推理的需求将不断增长。同时,AI 代理的兴起也表明,社区将受益于分别为训练和应用服务而定制的芯片。

  • TPU 8t: 专为 大规模、计算密集型训练 而设计,拥有更高的计算吞吐量和扩展带宽。
  • TPU 8i: 专为 对延迟最敏感的推理工作 而设计,拥有更大的内存带宽,这对于多个 AI 代理之间的协作至关重要。

虽然两款芯片都能运行多种工作负载,但这种专业化分工可以释放出显著的效率和性能优势。

TPU 8t:训练的动力源泉

TPU 8t 的目标是将前沿模型的开发周期从数月缩短至数周。它通过平衡计算吞吐量、共享内存和芯片间带宽,实现了比上一代产品 高出近 3 倍的集群计算性能

  • 巨大规模: 单个 TPU 8t 超级计算机集群现在可以扩展到 9,600 个芯片 和 2 PB 的共享高带宽内存。
  • 最高利用率: 集成了快 10 倍的存储访问速度,可将数据直接拉入 TPU,确保端到端系统的最高利用率。
  • 近线性扩展: 新的 Virgo Network 网络架构,结合 JAX 和 Pathways 软件,可以为多达一百万个芯片的逻辑集群提供近乎线性的性能扩展。

在前沿模型训练的规模下,每一个百分点的效率差异都可能转化为数天的有效训练时间。

TPU 8t 通过全面的可靠性、可用性和可服务性(RAS)功能,旨在实现超过 97% 的“有效算力”,即有用、高效的计算时间。

TPU 8i:推理的引擎

在 AI 代理时代,用户期望能够提出问题、分配任务并获得结果。TPU 8i 专为处理多个专业代理协同工作的复杂、迭代任务而设计,通过四项关键创新来消除效率瓶颈。

  • 突破“内存墙”: 通过 288GB 的高带宽内存和 384MB 的片上 SRAM(是上一代的 3 倍),使模型的活动工作集完全保留在芯片上,避免处理器闲置。
  • Axion 驱动的效率: 服务器中的物理 CPU 主机数量增加了一倍,并转向使用谷歌自研的 Axion ARM 架构 CPU,以优化整个系统的性能。
  • 为 MoE 模型扩展: 对于现代的混合专家(MoE)模型,芯片间的互联带宽增加了一倍,确保系统作为一个低延迟的整体协同工作。
  • 消除延迟: 新的片上集合加速引擎(CAE)可将全局操作的延迟降低多达 5 倍,最大限度地减少滞后。

这些创新使得 性能成本比 相比上一代提升了 80%,让企业能以相同的成本服务近两倍的用户。

系统级协同设计与能源效率

第八代 TPU 也是谷歌协同设计理念的最新体现,每一个规格都是为了解决 AI 领域最大的障碍而设。

  • Virgo Network 架构的带宽是根据万亿参数模型训练的并行需求而确定的。
  • TPU 8i 的 SRAM 容量是根据生产规模下推理模型的 KV 缓存占用而设计的。
  • 两款芯片首次都运行在谷歌自研的 Axion ARM 架构 CPU 主机 上,从而可以优化整个系统的性能和效率。

在当今的数据中心,电力而非芯片供应,正成为一个关键限制。TPU 8t 和 TPU 8i 的 性能功耗比是上一代的两倍。这一效率提升不仅来自芯片层面,也来自系统级的设计,包括先进的第四代 液冷技术 和将网络与计算集成在同一芯片上的做法。

通过拥有从 Axion 主机到加速器的完整技术栈,我们能够以独立设计主机和芯片时无法实现的方式,优化系统级的能源效率。

面向未来的 AI 基础设施

每一次重大的计算转型都需要基础设施的突破,AI 代理时代也不例外。TPU 8t 和 TPU 8i 就是谷歌应对这一挑战的答案。它们是谷歌 AI Hypercomputer 统一架构的一部分,将专用硬件、开放软件和灵活的消费模式整合在一起。

这两款芯片将于 今年晚些时候 正式推出,旨在重新定义 AI 的可能性,从构建最强大的 AI 模型,到协调成群的 AI 代理,再到管理最复杂的推理任务。