Synth Daily

数据中心制冷正日益成为一场能源危机。航空航天工程或许能帮我们把这个难题解决掉。

随着人工智能需求的激增,数据中心正面临着电力和土地资源的激烈争夺。然而,一个更深层次的问题是,由于设计和运营效率低下,大量已接入的电力被闲置,形成了高达 40% 至 50% 的“搁浅容量”。问题的核心已从电力供应转向热量管理。文章认为,通过借鉴航空航天工业的物理仿真方法,如计算流体动力学(CFD)和数字孪生技术,可以在建造前就精确模拟和优化数据中心的散热和气流,从而在不增加新电力的情况下,有效利用现有资源,提升算力并减少浪费。

利用率的巨大鸿沟

数据中心看似只是装满计算机芯片的巨大仓库,但其运营极其复杂。理论上,它们围绕一个最大计算能力来规划,但实际上很少能满负荷运行。

  • 过度规划: 开发者通常会高估峰值计算需求,导致建设了超出实际需要的容量。
  • 资源错配: 电力、冷却、网络和物理空间等资源,在每次部署新硬件时消耗速度不同,最终导致某一种资源先于其他资源耗尽。
  • 管理复杂性: 新的硬件部署、设备退役或新的 AI 任务,都会像俄罗斯方块一样笨拙地插入现有系统,改变电力和冷却需求,并可能加剧问题。

如果数据中心出现难以解决的热点,就无法部署新设备,服务器性能会下降,甚至会自动降低功耗以避免损坏。其结果就是所谓的“搁浅容量”。

平均而言,数据中心有高达 40% 到 50% 的可用电力因为无法被有效利用而闲置。

在全球范围内,这意味着当整个行业都在拼命寻找新电力来源时,数千个数据中心正坐拥兆瓦甚至吉瓦级别的闲置电力。这种因电力和冷却管理不善造成的浪费,带来了巨大的经济和环境成本。

无法逾越的热管理瓶颈

过去,数据中心机架的功率密度徘徊在 5 到 10 千瓦。如今,一个 AI 机架的功耗通常在 130 千瓦 左右,而下一代系统将达到 600 千瓦甚至更高。在这样的密度下,冷却的不再是一个房间,而是相当于一个小社区的集中热量输出。

这种密度彻底改变了一切。微小的设计或操作缺陷都可能引发大问题。无论是气流不均、冷却液分配不当,还是散热设备位置不佳,都会导致可用容量的消失。即使电表上有足够的电力,设施也无法安全地将其转化为额外的计算能力。

瓶颈已从 电力转向了热管理

AI 还带来了另一个难题:波动性。AI 系统的需求可以在毫秒内从接近闲置飙升至最大输出,然后又迅速回落。这种剧烈波动对为更稳定、可预测的使用模式而设计的冷却和电力系统构成了巨大压力。

冷却系统不再是次要系统——它本身就是核心系统。

先建模,后建造:借鉴航空航天工程

现代化数据中心的蓝图可能来自一个意想不到的领域:航空航天工程。几十年前,该行业就超越了物理试错,转向基于物理的仿真,在飞机实际飞行前很久就在软件中测试设计和气流。相比之下,数据中心常常依赖保守的过度设计和操作猜测。

通过计算流体动力学(CFD),工程师可以“看见”那些原本看不见的东西:热点将在哪里形成、空气和液体将如何循环,以及哪些限制会造成容量搁浅。

借助数字孪生——一个数据中心的实时虚拟复制品——我们可以在虚拟世界中测试那些在现实中风险极高的场景,例如:

  • 转移高密度工作负载。
  • 模拟断路器跳闸。
  • 模拟冷却系统故障。

可衡量的实际成果

这种方法的成果是实实在在的。

  • 一家大型金融公司通过数字孪生发现了导致容量闲置的气流不平衡问题。他们没有租用更多空间,而是重新设计了冷却和布局,最终避免了新的建设,并节省了约 2亿美元 的资本成本。
  • 另一个 AI 客户通过模拟发现,只需调整应用程序在机架间的分布——而非更换硬件——就能在不增加新电力的情况下,将产出(生成的 AI Token)提高约 20%

物理规律没有改变,改变的是我们对其的可视化能力。

从可选项到必需品

CFD 和数字孪生不再是少数博士才能使用的复杂工具,它们正成为数据中心日常运营中一个自动化的基础设施层。在不进行建模的情况下设计和运营数据中心,很快就会像把一架未经测试的飞机送上天一样过时。

数据中心的竞赛不会放缓,但扩张不必是唯一的应对方式。哪怕只是渐进地改善我们利用现有容量的方式,也能改变游戏规则。我们完全可以从现有的电力中提取更多的计算能力,而不是无休止地追逐新的能源。