用模拟计算让 AI 推理更便宜｜Shwetank Kumar 做客 EnCharge AI

AI 推理的成本与能耗正在持续上升，尤其是在智能体和视频生成等前沿领域，仅靠软件优化已无法解决。EnCharge AI 公司提出了一种基于标准内存（SRAM）的模拟存内计算芯片，通过在存储单元内部直接进行数学运算来解决问题。这种方法旨在将数据移动降至最低，从而将在同一工艺节点下实现 10 到 20 倍的能效提升，并推动 AI 从数据中心向边缘设备迁移，使目前成本过高的应用（如视频生成）变得经济可行。

AI 推理正变得更昂贵

尽管基础的聊天机器人服务价格在下降，但前沿 AI 应用的成本却在飙升。

智能体工作负载成本高昂： 一个智能编程任务可以消耗 2 万到 20 万个 token。如果是智能体团队，由于每个成员都需要维护自己的上下文，成本还会增加数倍。
总账单持续走高： 即使单个 token 的价格下降，但由于任务消耗的 token 总量急剧增加，用户的最终花费依然在上涨。
软件优化已达极限： 仅靠软件层面的效率提升，其效果受限于内存与计算单元之间的物理边界。

聊天机器人正变得越来越便宜，但智能体却越来越昂贵。

问题的核心是能源

AI 的定价问题本质上是一个能源问题。在传统的冯·诺依曼架构中，计算和存储是分离的。

数据搬运是能耗大户： 在神经网络的每一次矩阵乘法中，数据都需要在内存和计算单元之间来回穿梭。这个数据移动的过程，而不是计算本身，消耗了绝大部分的能量。
模型普遍“过度参数化”： 当前的前沿模型参数量远超实际所需。这一点通过剪枝、量化和蒸馏等技术可以证明——这些技术能大幅压缩模型体积，而性能损失极小。
过度参数化导致中心化： 正是因为模型过于臃肿，才不得不依赖数据中心里庞大的、高能耗的基础设施来运行。

模拟存内计算：一种解决方案

EnCharge AI 公司正在开发一种模拟存内计算芯片，旨在从根本上改变架构。

运算在内存中进行： 该技术将乘法运算直接整合进内存阵列本身，消除了数据在内存和计算单元之间的大量往返。
基于标准工艺： 它使用开关电容电路和标准的 SRAM 内存单元，不需要任何特殊的、昂贵的硅工艺，从而绕开了传统模拟计算面临的噪声和可变性问题。
显著的能效提升： 目标是在相同的工艺节点下，实现 10 到 20 倍的能效提升。
软硬件协同设计： 成功不仅依赖硬件，还需要一个完整的软件工具链，包括专有的量化流程和编译器，确保模型能高效地在芯片上运行。

在模拟存内计算中，我们不再低效地移动数据位，而是从根本上停止了大部分传统算术的执行方式。

重新评估 AI 的衡量标准

将数据中心的算力简单地用“多少吉瓦”来衡量是一种误导。

在我看来，用千兆瓦来衡量数据中心，毫无疑问是一种虚荣的指标。

输入 vs. 输出： “吉瓦”仅仅是一个纯粹的输入指标，它完全没有告诉你用这些能源获得了多少价值。
更有效的衡量单位： 真正的衡量标准应该关注效率和产出，例如：
- TOPS/瓦 (每瓦万亿次运算): 用于比较芯片硬件本身。
- Tokens/秒/瓦 (每秒每瓦处理的 token 数): 用于衡量语言模型。
- 帧/秒/瓦 (每秒每瓦处理的视频帧数): 用于衡量视频模型。

AI 的未来：从云端走向边缘

多种力量正在共同推动 AI 从数据中心向边缘和客户端设备（如个人电脑、手机）迁移。

延迟是关键驱动力： 机器人、实时增强现实 (AR) 或设备上的个人智能体等应用无法容忍到云端的网络延迟。光速本身就决定了云端无法解决低延迟问题。
更小、更强的模型： 开源社区正以惊人的速度推出体积更小但能力强大的模型（如 Qwen、Llama），这使得在本地设备上运行高级 AI 成为可能。
主权 AI 和隐私需求： 出于数据主权和隐私保护的考虑，越来越多的行业（如国防、金融、医疗）需要将推理任务留在本地处理。
经济效益的临界点： 视频生成是第一个被认为“在商业上不经济”的 AI 产品。这使得高能效硬件不再只是“锦上添花”，而是“产品能否发布”的必需品。