Synth Daily

用模拟计算让 AI 推理更便宜|Shwetank Kumar 做客 EnCharge AI

AI 推理的成本与能耗正在持续上升,尤其是在智能体和视频生成等前沿领域,仅靠软件优化已无法解决。EnCharge AI 公司提出了一种基于标准内存(SRAM)的模拟存内计算芯片,通过在存储单元内部直接进行数学运算来解决问题。这种方法旨在将数据移动降至最低,从而将在同一工艺节点下实现 10 到 20 倍的能效提升,并推动 AI 从数据中心向边缘设备迁移,使目前成本过高的应用(如视频生成)变得经济可行。

AI 推理正变得更昂贵

尽管基础的聊天机器人服务价格在下降,但前沿 AI 应用的成本却在飙升。

  • 智能体工作负载成本高昂: 一个智能编程任务可以消耗 2 万到 20 万个 token。如果是智能体团队,由于每个成员都需要维护自己的上下文,成本还会增加数倍。
  • 总账单持续走高: 即使单个 token 的价格下降,但由于任务消耗的 token 总量急剧增加,用户的最终花费依然在上涨。
  • 软件优化已达极限: 仅靠软件层面的效率提升,其效果受限于内存与计算单元之间的物理边界。

聊天机器人正变得越来越便宜,但智能体却越来越昂贵。

问题的核心是能源

AI 的定价问题本质上是一个能源问题。在传统的冯·诺依曼架构中,计算和存储是分离的。

  • 数据搬运是能耗大户: 在神经网络的每一次矩阵乘法中,数据都需要在内存和计算单元之间来回穿梭。这个数据移动的过程,而不是计算本身,消耗了绝大部分的能量。
  • 模型普遍“过度参数化”: 当前的前沿模型参数量远超实际所需。这一点通过剪枝、量化和蒸馏等技术可以证明——这些技术能大幅压缩模型体积,而性能损失极小。
  • 过度参数化导致中心化: 正是因为模型过于臃肿,才不得不依赖数据中心里庞大的、高能耗的基础设施来运行。

模拟存内计算:一种解决方案

EnCharge AI 公司正在开发一种模拟存内计算芯片,旨在从根本上改变架构。

  • 运算在内存中进行: 该技术将乘法运算直接整合进内存阵列本身,消除了数据在内存和计算单元之间的大量往返。
  • 基于标准工艺: 它使用开关电容电路和标准的 SRAM 内存单元,不需要任何特殊的、昂贵的硅工艺,从而绕开了传统模拟计算面临的噪声和可变性问题。
  • 显著的能效提升: 目标是在相同的工艺节点下,实现 10 到 20 倍的能效提升
  • 软硬件协同设计: 成功不仅依赖硬件,还需要一个完整的软件工具链,包括专有的量化流程和编译器,确保模型能高效地在芯片上运行。

在模拟存内计算中,我们不再低效地移动数据位,而是从根本上停止了大部分传统算术的执行方式。

重新评估 AI 的衡量标准

将数据中心的算力简单地用“多少吉瓦”来衡量是一种误导。

在我看来,用千兆瓦来衡量数据中心,毫无疑问是一种虚荣的指标。

  • 输入 vs. 输出: “吉瓦”仅仅是一个纯粹的输入指标,它完全没有告诉你用这些能源获得了多少价值。
  • 更有效的衡量单位: 真正的衡量标准应该关注效率和产出,例如:
    • TOPS/瓦 (每瓦万亿次运算): 用于比较芯片硬件本身。
    • Tokens/秒/瓦 (每秒每瓦处理的 token 数): 用于衡量语言模型。
    • 帧/秒/瓦 (每秒每瓦处理的视频帧数): 用于衡量视频模型。

AI 的未来:从云端走向边缘

多种力量正在共同推动 AI 从数据中心向边缘和客户端设备(如个人电脑、手机)迁移。

  • 延迟是关键驱动力: 机器人、实时增强现实 (AR) 或设备上的个人智能体等应用无法容忍到云端的网络延迟。光速本身就决定了云端无法解决低延迟问题。
  • 更小、更强的模型: 开源社区正以惊人的速度推出体积更小但能力强大的模型(如 Qwen、Llama),这使得在本地设备上运行高级 AI 成为可能。
  • 主权 AI 和隐私需求: 出于数据主权和隐私保护的考虑,越来越多的行业(如国防、金融、医疗)需要将推理任务留在本地处理。
  • 经济效益的临界点: 视频生成是第一个被认为“在商业上不经济”的 AI 产品。这使得高能效硬件不再只是“锦上添花”,而是“产品能否发布”的必需品。