冯·诺依曼瓶颈成AI算力绊脚石？

AI计算因其海量数据处理需求而能耗巨大。这不仅是因为数据量大，也源于现代处理器普遍采用的冯·诺依曼架构。该架构将内存与计算单元分离，导致数据传输成为效率瓶颈，尤其是在AI任务中，处理器常常因等待数据而闲置。研究人员正在通过内存内计算和近内存计算等新策略来整合内存与处理，以克服这一瓶颈。然而，冯·诺依曼架构因其灵活性仍将是通用计算的主流，未来很可能是两种架构优势互补的混合系统。

什么是冯·诺依曼瓶颈？

冯·诺依曼瓶颈指的是当数据移动速度慢于计算速度时产生的延迟。这一现象源于冯·诺依曼架构，该架构在过去六十多年的几乎所有处理器中都得到应用。它的核心设计是将处理器的内存单元和计算单元分开，通过总线连接。

这种分离式设计具有显著优点，这也是它至今仍是主流架构的原因：

灵活性： 能够适应不同的工作负载。
可扩展性： 可以轻松地扩展系统和升级组件。
设计便利： 内存和计算单元可以独立设计和配置，允许根据应用需求选择最佳组件。

“冯·诺依曼架构非常灵活，这是它的主要优势，”IBM 研究科学家 Manuel Le Gallo-Bourdeau 表示，“这就是它最初被采用，并且至今仍是主流架构的原因。”

然而，这种设计对于AI计算来说却成了一个绊脚石。

为何它会降低AI计算效率？

AI计算的操作通常是简单、大量且高度可预测的。在传统处理器上运行时，效率问题主要体现在两个方面：需要移动的模型参数（权重）数量，以及它们需要移动的距离。

数据传输是能耗大头： 在AI运行期间，主要的能源消耗在于数据传输——即在内存和计算单元之间来回搬运模型权重。相比之下，实际计算本身消耗的能量要低得多。
距离决定成本： 内存离处理器越远，移动数据所需的能量就越多，延迟也越高。从物理层面看，电线越长，为其充电和放电（代表数据1和0）所消耗的能量就越大。
规模效应： 训练一个大型语言模型（LLM）可能需要加载数十亿个权重，这导致处理器大量时间处于闲置状态，等待数据就位。

结果是，训练一个大型模型可能耗时数月，其能耗超过一个普通家庭同期的用电量。

如何绕过这个瓶颈？

由于AI计算是以内存为中心，而非以计算为中心，研究人员开发了新的策略来整合内存与处理，从而缓解冯·诺依曼瓶颈。

主要有两种方法：

内存内计算 (In-memory computing): 这种方法将内存与处理功能集成在一起。例如，使用相变存储器（PCM）等技术，将模型权重直接存储在存储设备的物理属性（如电阻率）中，从而在存储位置直接进行计算，避免了数据来回移动。
近内存计算 (Near-memory computing): 这种方法致力于缩短内存与计算单元的物理距离。IBM的AIU NorthPole处理器就是一个极端例子，它拥有众多核心，每个核心都配备了本地内存，极大地减少了数据传输延迟。

实验证明，NorthPole处理器在运行一个30亿参数的大型语言模型时，其速度比次优的GPU快47倍，能效则高出73倍。

为什么冯·诺依曼架构不会消失？

尽管存在瓶颈，但冯·诺依曼架构在许多非AI应用中仍然表现出色，尤其是在需要高精度计算的场景，如计算机图形处理。

“对于通用计算，确实没有什么比冯·诺依曼架构更强大的了，”IBM研究科学家Geoffrey Burr说。他将通用计算比作一个熟食店，可以根据不同订单灵活制作各种三明治；而AI计算则像一个特殊订单，需要一次性制作5000个金枪鱼三明治，其过程高度重复。

未来的计算系统很可能是一个混合体。专家们一致认为，最合理的方案是将冯·诺依曼处理器与非冯·诺依曼处理器结合起来，让它们各自处理最擅长的任务，从而实现整体效率的最大化。