液冷设备大展风采

最新的液冷技术创新,特别是微射流冷板设计,正成为应对 AI 服务器巨大散热挑战的关键方案。该技术通过将冷却液直接喷射到芯片的“热点”区域,实现了前所未有的散热效率。尽管这些专为企业级高功耗芯片设计的解决方案短期内不会进入消费市场,但它们展示了未来高性能计算散热技术的发展方向。

微射流技术:一种新的散热方式

传统的液冷散热块通常依赖于微水道鳍片阵列,而新的设计则采用了微射流(microjets)

    • 工作原理: 冷却液首先流入散热块顶部的分流歧管,然后通过一系列微小的通道,像喷射流一样直接冲击到下方的冷板表面。
    • 优势: 这种设计确保了冰冷的液体能够均匀覆盖整个芯片表面,或者更精确地对准特定区域。

一个关键的进步在于,喷射口可以根据芯片上预期的热点位置进行定制化布局,而不是在整个芯片上均匀分布。

精准散热与效率提升

Jetcool 公司展示的 “SmartLid” 散热块就是这种精准散热理念的典范。

    • 非均匀布局: 其喷射孔的分布是不规则的,专门对准芯片上最容易发热的区域。
    • 直接触及芯片: “SmartLid” 更进一步,它移除了传统的导热介质和冷板,让冷却液直接喷射到芯片核心(die)的表面。这种做法类似于极限超频玩家所熟知的“开盖”,通过减少热传递层级来大幅提升散热效率

这种为特定芯片高度优化的设计,对于拥有数千台标准化服务器的大型数据中心来说,具有极高的价值。

材料选择的权衡

散热方案的材料选择需要在性能和实际应用之间找到平衡。

    • 铜(Copper): 拥有出色的导热效率,是消费级和高性能散热方案的首选。但其主要缺点是重量大,在需要空运服务器等对重量敏感的场景下会成为问题。
    • 铝(Aluminum): 重量远轻于铜,是轻量化设计的理想选择。然而,铝制部件需要应对腐蚀问题,这可能会影响其长期使用的寿命。

系统级集成与应用实例

这些先进的散热组件最终需要被集成到完整的服务器系统中。

    • 串联冷却: 在英伟达的 GB200 服务器(包含两块 B200 GPU 和一块 Grace CPU)冷却方案中,冷却液会依次流过两块发热量巨大的 GPU,最后再流向 CPU。
    • 自包含系统: 对于那些没有在建筑层面部署水冷设施的数据中心,Jetcool 展示了一种一体化水冷服务器。它将散热排、水泵和散热块全部集成在机箱内部,可以无缝接入现有的数据中心环境。
    • 混合散热: 即便是最高端的液冷服务器,也并非所有部件都采用液冷。只有像 GPU 和 NVSwitch 芯片这类发热量最高的组件才会使用液冷,而其他部件如固态硬盘等则继续依赖传统的风冷散热。

为什么液冷变得如此重要?

AI 技术的爆发式增长是推动散热技术创新的根本原因。

用于机器学习的芯片功耗正以前所未有的速度攀升,这意味着它们会产生巨量的废热。

    • 一个 Meta 的 AI 服务器机架功耗可达 93.5 千瓦
    • 一个装有 128 块 AMD MI350X GPU 的机架功耗可能接近 180 千瓦
    • 作为对比,一个普通美国家庭的年平均功耗还不到 2 千瓦

如此巨大的热量必须被有效带走,这使得液冷从一个“可选项”变成了“必需品”。虽然这些技术目前主要服务于企业,但其核心理念,如针对热点进行精准散热,未来有望下放到消费级硬件中。