我们第八代 TPU：双芯片助力智能新时代

谷歌发布了第八代定制 AI 芯片，包含两款专门设计的型号：TPU 8t 用于大规模模型训练，而 TPU 8i 用于高速推理。这些芯片旨在满足 AI 代理（AI agents）复杂、多步骤工作流程的需求，同时显著提升了计算性能和能源效率。TPU 8t 通过强大的算力和扩展能力缩短模型开发周期，TPU 8i 则优化了延迟和内存带宽，以支持快速协作的 AI 代理。这两款芯片的推出，标志着 AI 基础设施向着更高效、更专业化的方向发展。

迎接 AI 代理时代

在 AI 代理的时代，模型需要解决问题、执行多步骤工作流程，并在持续的循环中从自身行动中学习。这给基础设施带来了全新的要求。第八代 TPU 芯片，即 TPU 8t 和 TPU 8i，正是为了应对这些挑战而设计的。它们与 Google DeepMind 合作开发，旨在处理最苛刻的 AI 工作负载，并适应不断发展的模型架构。

通过将芯片与硬件、网络和软件（包括模型架构和应用需求）进行协同设计，我们可以提供显著更高的能源效率和绝对性能。

为满足不同需求而设计的两款芯片

硬件的开发周期远长于软件。谷歌几年前就预见到，随着前沿 AI 模型大规模部署，用户对推理的需求将不断增长。同时，AI 代理的兴起也表明，社区将受益于分别为训练和应用服务而定制的芯片。

TPU 8t： 专为 大规模、计算密集型训练 而设计，拥有更高的计算吞吐量和扩展带宽。
TPU 8i： 专为 对延迟最敏感的推理工作 而设计，拥有更大的内存带宽，这对于多个 AI 代理之间的协作至关重要。

虽然两款芯片都能运行多种工作负载，但这种专业化分工可以释放出显著的效率和性能优势。

TPU 8t：训练的动力源泉

TPU 8t 的目标是将前沿模型的开发周期从数月缩短至数周。它通过平衡计算吞吐量、共享内存和芯片间带宽，实现了比上一代产品 高出近 3 倍的集群计算性能。

巨大规模： 单个 TPU 8t 超级计算机集群现在可以扩展到 9,600 个芯片 和 2 PB 的共享高带宽内存。
最高利用率： 集成了快 10 倍的存储访问速度，可将数据直接拉入 TPU，确保端到端系统的最高利用率。
近线性扩展： 新的 Virgo Network 网络架构，结合 JAX 和 Pathways 软件，可以为多达一百万个芯片的逻辑集群提供近乎线性的性能扩展。

在前沿模型训练的规模下，每一个百分点的效率差异都可能转化为数天的有效训练时间。

TPU 8t 通过全面的可靠性、可用性和可服务性（RAS）功能，旨在实现超过 97% 的“有效算力”，即有用、高效的计算时间。

TPU 8i：推理的引擎

在 AI 代理时代，用户期望能够提出问题、分配任务并获得结果。TPU 8i 专为处理多个专业代理协同工作的复杂、迭代任务而设计，通过四项关键创新来消除效率瓶颈。

突破“内存墙”： 通过 288GB 的高带宽内存和 384MB 的片上 SRAM（是上一代的 3 倍），使模型的活动工作集完全保留在芯片上，避免处理器闲置。
Axion 驱动的效率： 服务器中的物理 CPU 主机数量增加了一倍，并转向使用谷歌自研的 Axion ARM 架构 CPU，以优化整个系统的性能。
为 MoE 模型扩展： 对于现代的混合专家（MoE）模型，芯片间的互联带宽增加了一倍，确保系统作为一个低延迟的整体协同工作。
消除延迟： 新的片上集合加速引擎（CAE）可将全局操作的延迟降低多达 5 倍，最大限度地减少滞后。

这些创新使得 性能成本比 相比上一代提升了 80%，让企业能以相同的成本服务近两倍的用户。

系统级协同设计与能源效率

第八代 TPU 也是谷歌协同设计理念的最新体现，每一个规格都是为了解决 AI 领域最大的障碍而设。

Virgo Network 架构的带宽是根据万亿参数模型训练的并行需求而确定的。
TPU 8i 的 SRAM 容量是根据生产规模下推理模型的 KV 缓存占用而设计的。
两款芯片首次都运行在谷歌自研的 Axion ARM 架构 CPU 主机 上，从而可以优化整个系统的性能和效率。

在当今的数据中心，电力而非芯片供应，正成为一个关键限制。TPU 8t 和 TPU 8i 的 性能功耗比是上一代的两倍。这一效率提升不仅来自芯片层面，也来自系统级的设计，包括先进的第四代 液冷技术 和将网络与计算集成在同一芯片上的做法。

通过拥有从 Axion 主机到加速器的完整技术栈，我们能够以独立设计主机和芯片时无法实现的方式，优化系统级的能源效率。

面向未来的 AI 基础设施

每一次重大的计算转型都需要基础设施的突破，AI 代理时代也不例外。TPU 8t 和 TPU 8i 就是谷歌应对这一挑战的答案。它们是谷歌 AI Hypercomputer 统一架构的一部分，将专用硬件、开放软件和灵活的消费模式整合在一起。

这两款芯片将于 今年晚些时候 正式推出，旨在重新定义 AI 的可能性，从构建最强大的 AI 模型，到协调成群的 AI 代理，再到管理最复杂的推理任务。