计算梯度

人工智能(AI)的巨大能源消耗是一个日益严峻的问题,但解决方案并非简单地建造更多超大规模数据中心。核心观点是,AI计算,特别是推理任务,不应默认在云端完成。相反,它应该沿着一个“计算梯度”进行动态分配,这个梯度涵盖了从个人设备(边缘)到区域中心,再到云端(超大规模数据中心)的多个层级。任务的分配应基于延迟、隐私、成本和功耗等实际需求。通过芯片效率提升、模型压缩以及分布式计算等技术,将计算推向数据源附近,可以显著降低能耗和延迟。未来的竞争优势不属于拥有最大数据中心的人,而属于那些能够最智能地将计算任务与“计算梯度”上最合适的位置相匹配的人。

重新思考AI的能源问题

普遍的担忧认为,AI的智能产出与电力消耗直接挂钩,随着AI应用的普及,能源需求将呈爆炸式增长。然而,这种观点基于一个关键假设:几乎所有的AI计算都发生在云端的超大规模数据中心。这个假设需要被挑战。

我们的主张是:推理不应被假定“在云端”或“主要在云端”。它应该沿着一个梯度被动态地放置,这取决于策略和物理限制:延迟预算、隐私/法规约束、数据引力、链路质量/成本、功耗和容错能力。

这个“计算梯度”可以被理解为一系列计算位置,每个位置都有其独特的优缺点:

    • 边缘 (Edge): 你的手机、汽车或耳机。模型在本地运行,响应即时,数据私密,但计算能力和电力有限。
    • 近边缘 (Near edge): 蜂窝塔或工厂网关。在数据源附近处理信息流,延迟低,计算能力中等。
    • 接入层 (Access): 企业内部服务器或托管机房。例如医院或交易大厅的服务器,数据保留在本地,但运营成本高。
    • 区域中心 (Regional hubs): 城市级的数据中心。在合规性、速度和容量之间取得了良好平衡。
    • 超大规模数据中心 (Hyperscale): 巨大的云中心。拥有最强的算力和最新的芯片,但距离用户远,数据传输成本高。

通过分布式和联邦学习等方法,模型可以在本地进行训练或推理,只共享必要的更新,而不是将所有原始数据都上传到云端。这种模式将计算推向信息产生的地方,从而优化整个系统的效率。

推动计算走向边缘的三大趋势

将计算任务沿着梯度智能分配,并非一个遥远的概念,而是正在发生的事实。有三个主要趋势正在推动行业将更多的计算能力推向边缘。

  1. 将算法移向数据,而非将数据移向算法

    这能有效减少能源浪费。例如,手机现在可以在本地处理语音识别,特斯拉的汽车在车内处理视频,而不是将影像流传输到远程服务器。将计算放在离数据更近的地方,可以降低延迟、成本和功耗

  2. 芯片效率的飞速提升

    硬件架构的进步正在不断降低每次计算的能源成本。从使用光子代替电子进行计算,到将内存直接集成到处理单元中以消除数据移动,再到高带宽内存(HBM)和模拟计算等技术,都在致力于提高能效。

  3. 模型压缩技术的成熟

    更小的模型架构、剪枝、量化等技术,使得强大的AI模型可以在功耗受限的边缘设备上运行。同时,像检索增强生成(RAG)这样的技术,将知识存储在外部数据库中,而不是模型参数里,进一步减小了模型的体积。

将推理推向边缘并不意味着电力消耗的消失,而是改变了电力在何处以及如何被消耗。负担从少数超大规模数据中心运营商,转移到了数十亿个分布式设备、网关和区域服务器上。

这意味着,能源消耗从少数几个地方集中消耗数百万瓦特,变成了在数十亿设备上分散消耗毫瓦或千瓦。这种转变也改变了成本结构,从少数巨头承担巨额能源合同,变为企业和家庭在边缘分摊成本。

战略机遇:智能布局而非规模竞赛

对于像英国这样的国家,高昂的电价使其难以在吸引超大规模数据中心的竞赛中占据优势。但这并不意味着失败。真正的机会在于其他层面。

真正的“胜利”不是建造更大的数据中心,而是实现更智能、可编程的计算任务布局,让每个任务都能在“计算梯度”上找到成本最低、速度最快的那个点。

与其追逐建设超大规模数据中心的潮流,不如专注于成为边缘计算效率的领导者。利用在芯片设计(如Arm)和编译器技术方面的优势,英国可以专注于优化在边缘设备上运行AI的效率,形成差异化竞争力。

最终,决定未来的不是AI生活在云端还是边缘,而是不同的应用场景需要哪种类型的“智能”。

    • 重型任务: 万亿参数的大模型需要集中、强大、高耗能的基础设施。
    • 轻型任务: 自动驾驶汽车的即时反应则依赖于本地、轻量、节俭的计算。

未来的领导者将是那些懂得如何根据任务需求,在“计算梯度”上做出最佳选择的国家和公司。这种智能匹配的能力,才是开启AI时代的关键。