Nvidia 正在从传统的 GPU 制造商转型,开始涉足低延迟的 CPU 和多芯片系统,以满足多样化的 AI 计算需求。近期与 Meta 达成的数十亿美元芯片采购协议,特别是其中包含了 Nvidia 的独立 CPU,标志着 CPU 在 AI 推理任务中的重要性日益凸显。与此同时,随着 OpenAI、Google 等科技巨头纷纷开发或采购自有芯片,AI 硬件领域的竞争正变得愈发激烈。
超越 GPU 的战略转型
长期以来,Nvidia 以其强大的 GPU(图形处理器)闻名,尤其在生成式 AI 浪潮中受益匪浅。然而,公司近期的动向表明,它正将目光投向计算强度较低的 AI 市场。
- 目标客户变化: 新的目标客户不一定需要最顶级的 GPU 来训练 AI 模型,而是寻求更高效的方式来运行 代理式 AI 软件 (agentic AI)。
- 技术布局: Nvidia 不仅斥资数十亿美元从一家专注于低延迟 AI 计算的初创公司 Groq 获得技术许可,还开始销售其最新的超级芯片系统中的 独立 CPU。
Meta 的大规模采购
Nvidia 与 Meta 宣布了一项价值数十亿美元的多年期芯片采购协议,以支持 Meta 的大规模 AI 基础设施建设计划。
- 采购内容: Meta 将大规模部署 Nvidia 的 CPU,以及数百万个 Blackwell 和 Rubin GPU。
- 里程碑意义: 这是 首次有科技巨头宣布大规模采购 Nvidia 的 Grace CPU 作为独立芯片。这证实了 Nvidia 提供从芯片到系统连接的“一站式”计算能力方案正在被市场接受。
- 投资规模: Meta 计划将其在 AI 基础设施上的支出从去年的 722 亿美元大幅增加到今年的 1150 亿至 1350 亿美元。
CPU 在 AI 推理中的新角色
行业专家认为,Nvidia 的这一举动反映出 AI 计算需求正在发生变化,CPU 的作用变得越来越重要。
代理式 AI 对通用 CPU 架构提出了新的要求,这是目前数据中心领域非常看好 CPU 的原因。
分析指出,CPU 的使用正在加速,以支持 AI 的训练和推理。例如,在微软为 OpenAI 服务的某个数据中心里,需要数万个 CPU 来处理和管理 GPU 产生的海量数据。如果缺少 CPU,它将成为整个系统的性能瓶颈,拖慢由 GPU 驱动的核心计算。
尽管如此,GPU 仍然是最高级 AI 硬件系统的核心。在 Meta 的采购清单中,GPU 的数量依然远超 CPU。
日益激烈的硬件竞争
在 Nvidia 拓展业务的同时,各大 AI 实验室和科技巨头也在积极寻求计算能力来源的多样化,这给 Nvidia 带来了更大的竞争压力。
- Microsoft: 混合使用 Nvidia GPU 和自研的定制芯片。
- Google: 主要依赖自家的 TPU (张量处理单元) 来训练和部署 AI 模型,但也使用 Nvidia 芯片。
- Anthropic: 结合使用 Nvidia GPU、Google TPU 和亚马逊的芯片。
- OpenAI: 公开表示正在与博通 (Broadcom) 合作开发自己的 AI 芯片,并与 AMD 达成了芯片采购协议,同时还计划使用 Cerebras 的技术来增加超低延迟的 AI 计算能力。
分析师认为,AI 实验室寻求芯片来源多样化的主要原因,仍然是 无法获得足够多的 GPU,因此他们会尽其所能从任何地方获取芯片。