NVIDIA 的 Rubin AI 服务器引入了 100% 全液冷设计,利用高达 45°C 的闭环冷却液为所有组件散热。这种方法无需风扇和传统冷通道,在多数气候条件下能将数据中心的制冷能耗和用水量降至几乎为零,同时显著提高机架密度并为余热回收创造可能,正成为 AI 数据中心的新标准。
为什么 45°C 反而更节能?
NVIDIA 最新的 Rubin AI 服务器允许冷却液在高达 45 摄氏度(113 华氏度)的温度下运行,这比大多数人泡澡的热水(约 38-40°C)还要高。正是这个更高的温度上限,使其能效远超传统方案。
其核心在于,这种设计是 全球首个实现 100% 液冷 的 AI 基础设施,所有芯片和网络组件都通过闭环液体进行冷却,系统中没有任何风扇。
- 减少能耗: 历史上,制冷占数据中心总用电量的 40%。通过全液冷设计,可以极大地降低这部分能耗。
- 降低水耗: 该设计采用基于干式冷却器的闭环系统,没有蒸发冷却过程,因此几乎不消耗水。在适宜的气候条件下,用水量可减少高达 100%。
- 节约成本: 据估算,一个 50 兆瓦的超大规模数据中心改用液冷后,每年可节省超过 400 万美元 的制冷能源和水费。
“NVIDIA 的 AI 工厂参考设计实现了零水耗——我们消除了大量的电力消耗和几乎所有的水资源消耗。” — Ali Heydari,NVIDIA 数据中心冷却与基础设施总监
颠覆传统观念:高效的数据中心不必“冷”
行业长期存在一个误解:感觉像走进冰柜的数据中心才是高效的。事实上,芯片的耐热性远超人们的直觉。
即使冷却液以 45°C 的高温进入,液冷散热板也能有效地将热量从芯片表面带走,使芯片温度保持在经过验证的安全工作范围内,性能丝毫不会下降。液体在吸收热量后,以大约 55°C 的温度流出,整个过程 直接在热源处完成。
无风扇、无冷通道的全新机器
传统数据中心有两个显著特征:巨大的噪音(风扇噪音高达 85 分贝)和精心设计的“热通道”与“冷通道”空气循环系统。Rubin 架构彻底改变了这一切。
- 工作原理: 冷却液(75% 的水和 25% 的丙二醇)流经直接贴在处理器上的散热板,在源头带走热量。
- 闭环系统: 加热后的冷却液被输送到室外的 干式冷却器(本质上是大型散热器),冷却后再循环回服务器。这个回路在设施生命周期内是封闭的,无需补充新水。
- 地理优势: 在气候凉爽的地区,甚至可以完全不使用制冷机,仅靠外部空气自然冷却,实现极高的效率。即使在炎热地区,制冷机也可能一年只在最热的几天启动。
工程挑战与设计成果
过去的液冷服务器是混合式的,只有 CPU 和 GPU 采用液冷。实现 100% 全液冷意味着需要为系统中所有其他组件重新设计散热方案。NVIDIA 的工程师解决了这个难题,设计了更简洁、高效的冷却回路。
这一变革带来了显著的优势:
- 更高的机架密度: 过去需要 6 个机架单元的系统,现在只需 2 个。这意味着在更小的空间内实现更强的计算能力。
- 更少的噪音和空间: 由于没有风扇和复杂的风道,数据中心变得更安静,内部空间也更简洁。
- 余热回收: AI 工厂产生的高温余热可以被重新利用,为附近的商业或住宅建筑供暖。
随着 AI 工作负载的计算需求以前所未有的速度增长,若不改进散热效率,其能源成本将同步飙升。45°C 液冷技术是弥合这一差距、推动行业走向更可持续未来的关键工具。