Synth Daily

AI数据中心为何如此“吃”资源?

随着人工智能(AI)的兴起,数据中心的建设急剧增加,但其对能源和水资源的巨大消耗正给社区带来沉重负担。问题的核心在于AI所依赖的图形处理器(GPU),它比传统的中央处理器(CPU)更耗电、产热更高,导致冷却需求激增。为应对挑战,行业正在探索包括液体冷却、利用自然环境降温、地热能以及优化芯片与AI模型等多种解决方案,同时呼吁提高运营透明度和现有设施的利用效率。

硬件差异:为何AI如此“吃”资源?

传统计算依赖中央处理器(CPU),它像一条单车道高速公路,能快速处理各种不同的任务。而AI则依赖图形处理器(GPU),它更像一个拥有上千条车道但限速很低的高速公路系统,擅长同时处理大量相似的、重复性的任务。

GPU的这种并行处理能力使其在AI计算中具备优势,但也带来了巨大的能源消耗:

  • 功耗激增: 与CPU在发展中功耗保持相对稳定不同,GPU的每一次迭代,晶体管数量和整体功耗都会大幅跃升。
  • 全面激活: GPU在工作时通常会一次性激活所有处理单元,导致其物理尺寸更大,电力需求也更高。
  • 能耗翻倍: 根据劳伦斯伯克利国家实验室的报告,随着GPU的普及,美国数据中心的能耗在五年内翻了一番以上,从占全国总用电量的1.9%跃升至近4.4%。

棘手的散热问题

电流通过芯片时会产生热量,而GPU就像老式白炽灯泡,将大量电能转化为了热能。为了保证芯片性能和寿命,数据中心必须将服务器机房的温度维持在 18至27摄氏度 之间。

鉴于GPU产生的巨大热量,维持这一温度需要复杂的工程技术和大量的能源。

传统的冷却方法主要依赖空气和水:

  • 冷热通道封闭: 将冷空气吹过服务器机架进行降温,再抽出热空气进行冷却和再循环。
  • 蒸发冷却: 利用水从液体蒸发为气体时的降温效应。这种方法可以是直接的,也可以是通过热交换器进行的间接冷却。

惊人的水资源消耗

对冷却的巨大需求直接导致了数据中心惊人的用水量。报告显示,2023年,美国AI数据中心消耗了约 554亿升 水,预计到2028年,这一数字可能攀升至 124亿升

“数据中心是美国十大用水工业或商业部门之一。”

数据中心的用水分为两个方面:

  • 直接用水: 主要用于冷却系统。这些水大部分会蒸发掉,无法立即补充到本地水循环中。此外,用于处理冷却水以防腐蚀和细菌滋生的化学物质,使得废水无法用于饮用或农业。
  • 间接用水: 占据了水足迹的更大部分,主要来自为其供电的发电厂。发电厂需要大量的水来冷却和产生驱动涡轮机的蒸汽。

探索可持续的替代方案

为了减少对环境的影响,行业正在积极探索更高效、更可持续的解决方案。

  • 闭环液体冷却: 将液体泵入紧贴发热组件的散热器中带走热量,然后在封闭系统中循环冷却。这种方式几乎没有水资源损耗,效率远高于传统风冷。微软甚至在测试直接在芯片背面集成微小通道的微流控冷却系统

  • “免费”冷却: 利用数据中心所在地的自然环境进行降温,例如使用寒冷地区的室外空气或附近的海水、湖水。

  • 可再生能源:

    • 将数据中心直接与风能、太阳能等可再生能源连接。
    • 地热能显示出巨大潜力,它不仅能提供稳定的电力,其地下恒定的低温也可用于冷却。
  • 浸入式冷却: 将整个计算设备浸泡在不导电的冷却液中,是一种高效但目前仍较小众的方法。

超越硬件:从源头解决问题

除了改进冷却技术,更根本的解决方案在于优化AI本身及其运行方式。

首先是提高透明度。AI公司需要公开其运营过程中的资源消耗和碳排放数据,让公众清楚地了解其环境足迹。

其次是提高效率

  • 智能芯片设计: 开发性能更高、能耗更低的处理器。
  • 提高利用率: 许多大型数据中心并未满负荷运行,与其盲目新建,不如先充分利用现有设施的计算能力。
  • 优化AI模型: 目前许多AI模型对于它们所执行的任务来说过于强大。

当前的方法“就像用电锯切汉堡包”。它能行吗?当然……但这绝对是小题大做了。

通过使用更小、但经过专门优化的模型,可以在许多场景下达到与大型模型相似的性能。每一个被精简掉的不必要计算,都是在为缓解社区的电力短缺、水资源紧张和公共事业成本上涨做出贡献。