Mac Studio 配备 1.5 TB 显存——基于 Thunderbolt 5 的 RDMA
macOS 的一项新功能允许通过 Thunderbolt 实现 RDMA(远程直接内存访问),让多台 Mac Studio 能够作为一个共享的内存池协同工作。这项技术旨在加速大型 AI 模型的运行。尽管测试显示,一个由四台总内存达 1.5TB 的 Mac Studio 组成的集群性能强大,甚至超越了某些竞争对手的系统,但它也暴露了诸多问题。该方案不仅价格极其昂贵且管理复杂,还受限于 Thunderbolt 的物理连接,目前最多只能连接四台设备。虽然具备潜力,但其扩展性和稳定性仍是未来的主要挑战。
Mac 集群的物理设置与网络限制
将多台 Mac Studio 组成集群首先需要解决物理安放和连接问题。虽然可以使用迷你机架来堆叠设备,但一些设计细节带来了不便。
- 电源按钮位置: Mac Studio 的电源按钮位于背部左侧的弧形表面上,这使得在机架中操作非常困难,需要伸手进去按压,同时还得扶住机器以防滑出。
- 电源线: 苹果使用了非标准的电源线接口,而不是服务器上常见的 C13 接口。
- 网络连接的局限性: 尽管 Mac Studio 配备了 10Gbps 以太网,但其高速互联依赖的是 Thunderbolt。
Thunderbolt 5 交换机目前并不存在,这意味着你无法将多台 Mac 连接到一个中央交换机。你必须将每台 Mac 直接连接到其他所有 Mac,这不仅导致布线混乱,而且目前最多只能交叉连接四台 Mac。
与使用 QSFP 端口的专业系统相比,Thunderbolt 的线缆连接既不够稳固,也非常繁琐,限制了集群的扩展能力。
单台 M3 Ultra Mac Studio 的基准性能
在考虑集群之前,有必要了解单台 Mac Studio 的性能。与同类产品相比,一台顶配的 M3 Ultra Mac Studio 本身就是一台性能猛兽。
- CPU 性能: 在 Geekbench 测试中,M3 Ultra 在单核和多核性能上均优于竞争对手的 Dell Pro Max (Nvidia GB10) 和 Framework Desktop (AMD AI Max+ 395) 系统。
- 科学计算: 在双精度 FP64 测试中,M3 Ultra 是首款突破 1 Tflop 的小型台式机,性能几乎是 Nvidia GB10 的两倍。
- 能效: CPU 效率非常高,空闲功耗低于 10 瓦,运行时也十分安静。
- AI 推理: 无论是小型还是大型模型,M3 Ultra 都表现出色。对于那些超大型模型,竞争对手的单节点系统甚至无法运行。
一台 M3 Ultra Mac Studio 的性能超过了整个 Framework Desktop 集群,而功耗仅为其一半。
尽管其近 10,000 美元的售价不菲,但其性能和内存优势是显而易见的。
集群管理与性能测试
将多台 Mac 组合成集群面临的最大障碍之一是 macOS 本身。
管理 Linux 集群更容易。在没有 MDM (移动设备管理) 工具的情况下,管理 Mac 集群会遇到很多小麻烦。例如,你无法通过 SSH 远程执行系统升级,必须通过图形界面手动点击。
HPL 和 Llama.cpp 测试
- HPL (高性能计算基准): 在四台 Mac 组成的集群上,性能达到了 3.7 Tflops,大约是单台 Mac 的 3 倍。考虑到其中两台 Mac 的内存只有一半,这个结果基本符合预期。然而,尝试通过 Thunderbolt 运行 HPL 会导致系统崩溃重启。
- Llama.cpp (AI 模型): 测试显示,使用 Thunderbolt 连接进行 AI 推理的延迟远低于使用 2.5G 以太网。
RDMA 带来的性能飞跃
开源工具 Exo 1.0 支持在 Mac 集群上启用 RDMA。启用过程需要进入恢复模式并执行特定命令。启用后,性能提升显著,尤其是在运行超大型模型时。
Llama.cpp 目前使用的方法在增加节点时效率会下降,而 Exo 利用 RDMA 则能实现性能的线性增长。
- Qwen3 235B 模型: 随着节点数量增加,Exo 的性能从单节点的 10 tokens/s 提升到四节点的 32 tokens/s。
- Kimi K2 Thinking (1 万亿参数模型): 即使是这种巨型模型,集群也能达到约 30 tokens/s 的推理速度,展示了本地运行大型 AI 模型的潜力。
稳定性与未来展望
尽管性能表现出色,但整个系统也存在明显的稳定性问题。
很明显,RDMA over Thunderbolt 是一项新技术。当它正常工作时,效果很好。当它不工作时……我很高兴我设置了 Ansible,可以快速重启整个集群。
此外,该方案还面临一些悬而未决的问题:
- 硬件限制: Thunderbolt 接口成为扩展性的瓶颈。苹果是否会推出带有 PCIe 扩展槽的 Mac Pro,或者在 Mac Studio 上加入 QSFP 端口?
- 软件支持: Llama.cpp 等其他应用何时会支持 RDMA 以获得性能提升?
- 新芯片: M5 Ultra 芯片如果发布,无疑将进一步提升机器学习性能。
总而言之,Mac Studio 集群为本地 AI 和创意工作提供了强大的性能,即使 AI 热潮退去,它仍然是一台出色的工作站。但其高昂的成本、复杂的管理和 Thunderbolt 的连接限制,使其无法成为一个真正可扩展的高性能计算解决方案。