Synth Daily

关于太空 GPU 的笔记

将数据中心送入太空听起来像是科幻,但其核心逻辑在于解决未来 AI 发展面临的能源瓶颈。其基本设想是,在太阳同步轨道上,数据中心可以获得持续不断的太阳能,从而摆脱地球上的能源和环境限制。然而,这一方案面临着芯片发射成本高昂、在轨维修几乎不可能等巨大挑战。埃隆·马斯克认为,地球的能源扩展能力终将达到物理极限,太空是唯一可行的算力扩展方向。这更像是一场战略赌博:如果他的判断正确,拥有大规模发射能力的 SpaceX 将成为 AI 竞赛的最终赢家。

轨道数据中心的优势:能源

将数据中心送入太空的唯一核心理由是能源

  • 持续光照:在太阳同步轨道上,卫星可以持续面向太阳,没有夜晚和云层遮挡。地球上太阳能的平均发电效率(容量因子)约为25%,而在太空可以接近100%。
  • 无需储能:由于能源供应不中断,轨道数据中心不需要配备庞大而昂贵的电池储能系统,而这正是地面太阳能电站的主要成本之一。
  • 成本逻辑:该设想成立的前提是,随着 星舰 (Starship) 等可重复使用火箭技术的发展,航天发射成本将持续大幅下降,最终使得在轨道上部署 GPU 比在地球上建设新的发电厂和储能设施更便宜。

“那些生活在软件世界的人没有意识到,他们即将迎来硬件方面的惨痛教训。”

现实挑战:芯片成本与可靠性

尽管能源优势明显,但轨道数据中心面临的现实问题同样严峻。

  • 成本结构失衡:能源成本仅占数据中心总拥有成本的 15% 左右,而 芯片本身则占到了约 70%。将最昂贵的部分发射到太空,并不能从根本上解决成本问题。
  • 维护难题:在地球上,GPU 故障是家常便饭。例如,Meta 的一个 16,000 张 H100 芯片集群大约每三个小时就会出现一次故障,技术人员可以随时更换。但在太空,维修几乎是不可能的。
  • 发射前的闲置:即使如埃隆·马斯克所说,可以通过地面测试筛选掉有早期故障(infant mortality)的芯片,整个流程也极为繁琐:在地面组装、测试、拆卸、打包、发射、再到轨道上重新运行。在此期间,最昂贵的资产——芯片——完全处于闲置状态,不产生任何价值。

埃隆·马斯克对此回应:“一旦它们开始工作,它们的实际可靠性……在过了最初的调试周期后是相当高的。所以我认为服务问题不是一个大问题。”

埃隆·马斯克的反驳:地球的物理极限

埃隆·马斯克认为,争论经济性没有意义,因为问题的关键在于物理限制。他反复强调,地球根本无法以物理方式扩展电力生产,以满足未来 AI 对算力的恐怖需求。

“你唯一能真正扩展的地方就是太空。”

他指出,在美国,为数据中心接入电网的排队时间已经非常长,自建电厂的涡轮机交付周期也排到了 2030 年后。地球上的太阳能项目也受到土地、许可和关税的限制。相比之下,太空提供了近乎无限的扩展空间。

技术可行性分析:将100吉瓦算力送入太空

要将 100 吉瓦 (GW) 的算力送入太空,需要进行惊人的发射活动。一个轨道数据中心卫星主要由三个部分组成:太阳能电池板、计算单元和散热器。核心衡量指标是整个卫星的比功率 (W/kg),即每公斤发射质量能提供多少瓦的计算能力。

  • 太阳能电池板:目前最先进的空间太阳能电池板约为 150 W/kg。
  • 计算单元:以英伟达 GB200 为例,去除冷却设备后,其计算单元的比功率可达约 1,452 W/kg。
  • 散热器:在真空中,热量只能通过辐射散发。假设 GPU 在 90°C 工作,散热器在 60°C 工作,其散热能力约为 320 W/kg。

综合计算,整个卫星系统的比功率约为 85 W/kg。这意味着:

  • 星舰单次发射(假设载荷 150 吨)可部署约 10 兆瓦 (MW) 的算力。
  • 要部署 1 吉瓦 (GW) 算力,需要大约 100 次星舰发射。
  • 要在一年内完成 100 吉瓦的部署,需要大约 10,000 次发射——相当于平均每小时发射一次。

这是一个疯狂的数字。埃隆·马斯克认为,SpaceX 正在为此做准备,目标是每年发射 10,000 次,甚至更多。

工作负载与通信难题

轨道数据中心更适合执行推理 (inference) 任务,而非同步训练。由于不同轨道上的卫星会相互漂移,进行大规模同步训练非常困难。一种解决方案是将大量卫星部署在同一高度的紧密集群中。

至于将计算结果传回地球,其带宽需求并不像想象中那么大。即使是 100 吉瓦的算力,产生的数据也可以通过卫星间的激光链路轻松传回地面。延迟可能是个问题,但对于许多非即时的 AI 应用来说,几十毫秒的延迟完全可以接受。

埃隆·马斯克的真正赌注

将数据中心送入太空是一个极高风险的赌注。它需要满足以下所有条件才能成立:

  • 地球上的电力生产确实达到了物理上限,或 AI 需求增长超过了所有地面解决方案。
  • 芯片的生产规模远超预期,导致电力短缺成为主要瓶颈。
  • 星舰的发射频率达到每年数千甚至上万次

如果埃隆·马斯克的判断是正确的,他将彻底赢得 AI 竞赛。SpaceX 是唯一有能力进行如此大规模发射的实体,届时 xAI 将拥有近乎无限的算力,而其他所有竞争者仍在为电网接口和涡轮机订单而争斗。

这正是埃隆·马斯克的优势所在。他的比较优势从来不是处理地面上的繁文缛节,而是 SpaceX。因此,他选择押注一个只有 SpaceX 才能成为“造王者”的未来。这或许看起来很鲁莽,但这正是 SpaceX 一路走来的方式:在通往火星的最终目标上,不断为新一代火箭创造出新的商业需求。轨道数据中心,或许就是为星舰量身定做的“星链计划 (Starlink)”。