Synth Daily

GEN-0:与现实互动共成长的通用基础模型

GEN-0 是一种新型的机器人基础模型,它直接通过海量的真实物理交互数据进行训练。其核心是“谐波推理”能力,使机器人能够无缝地“边想边做”。研究发现,该模型遵循明确的“扩展定律”:当模型参数超过 70 亿后,其性能会随着数据和计算资源的增加而持续、可预测地提升。这一突破解决了机器人领域长期存在的数据瓶颈,标志着一个新时代的到来,即机器人智能可以通过与现实世界的互动来不断成长和扩展。

机器人领域缺失的一环

多年来,机器人领域的基础模型主要依赖于视觉和语言的预训练,试图借鉴大型多模态模型在语义理解上的成功。然而,这种方法缺少一个关键环节:如何在机器人技术本身领域内,有效地扩展模型训练。我们需要建立一种机制,证明投入更多的计算资源和交互数据,就能持续且可预测地提升机器人智能,就像在语言模型领域已经发生的那样。

这要求一个全新的架构、训练流程和数据引擎,它不仅能推动新的感知运动能力,还能实现行为上的泛化,并能随着与物理世界互动的海量经验而不断成长。

GEN-0:为物理世界而生的基础模型

为了解决上述问题,我们推出了 GEN-0,这是一种专为直接处理高保真、原始物理交互数据而设计的新型具身基础模型。它的架构不仅借鉴了视觉和语言模型的优势,更超越了它们,原生支持捕捉人类水平的反应和物理常识。

GEN-0 的核心特性包括:

  • 超越智能阈值:在机器人领域前所未有的高数据量训练中,我们观察到模型在 70 亿参数时出现了一个“相变”。小于此规模的模型会“僵化”,而更大的模型则能持续进步。
  • 机器人扩展定律:GEN-0 模型表现出强大的扩展定律,即更多的预训练数据和计算资源,能稳定且可预测地提升模型在下游任务中的表现。
  • 谐波推理 (Harmonic Reasoning):物理世界不会暂停等待机器人“思考”。为了解决这个问题,“谐波推理”采用了一种全新的训练方法,在感知和行动的连续数据流之间创造了一种“谐波”般的相互作用,使模型在无需依赖特定推理架构的情况下也能扩展到巨大规模。
  • 跨机器人形态的通用性:GEN-0 的架构设计使其能够适用于不同形态的机器人,我们已在 6 自由度、7 自由度乃至 16+ 自由度的半人形机器人上进行了测试。
  • 不再受数据限制:GEN-0 基于我们内部的机器人数据集进行预训练,该数据集包含超过 27 万小时的真实、多样化的操作数据,并且仍在以每周 1 万小时的速度加速增长。
  • 预训练的科学:我们发现,不同来源和类型的预训练数据组合会塑造出具有不同特性的 GEN-0 模型。

我们相信,GEN-0 标志着一个新时代的开端:具身基础模型的能力不再仅仅依赖文本、图像或模拟数据,而是可以通过与真实物理世界的互动数据来可预测地扩展。

超越智能阈值:越大越智能

我们的扩展实验表明,GEN-0 模型必须足够大才能吸收海量的物理交互数据。我们观察到,较小的模型在数据过载时会表现出一种类似于“僵化”的现象,而较大的模型则能持续改进。这揭示了模型智能容量中一个惊人的“相变”:

  • 10 亿参数模型:难以在预训练中吸收复杂多样的感知运动数据,模型权重会随着时间推移而无法吸收新信息。
  • 60 亿参数模型:开始从预训练中受益,并展现出强大的多任务能力。
  • 70 亿以上参数模型:能够内化大规模的机器人预训练数据,只需几千步的后期训练,就能将能力迁移到下游任务中。

这种现象呼应了著名的“莫拉维克悖论”:对人类来说轻而易举的感知和灵巧动作,实际上比抽象推理需要远为复杂的计算能力。我们的实验表明,物理世界的智能(即物理常识)可能需要更高的计算“激活阈值”。

机器人扩展定律:可预测的性能提升

当模型规模足够大时,我们观察到预训练数据规模与下游任务的后期训练性能之间存在一种强大的幂律关系。这意味着我们可以预测,投入更多的数据将如何提升模型在特定任务上的表现。

例如,在“衣物处理”(包括分类、整理、扣扣子和悬挂衣物)这类真实工作场景中,我们可以根据已有的数据量,预测模型达到特定性能水平还需要多少额外的数据。这些估算能够指导我们与合作伙伴的沟通,并为达到特定性能目标提供清晰的路线图。

数据:机器人发展不再受限

我们的基础模型在一个前所未有的数据集上进行训练,该数据集包含了在全球数千个家庭、仓库和工作场所收集的 27 万小时的真实世界操作轨迹。目前,我们的数据运营能力每周能提供超过 1 万小时的新数据,并且还在加速。

为了支持如此规模的机器人模型和数据,我们构建了定制化的硬件、数据加载器和网络基础设施,甚至铺设了专用的互联网线路,以支持来自全球各地数据收集点的上传带宽。

预训练的科学:质量比数量更重要

通过大规模的对比实验,我们发现 数据的质量和多样性比纯粹的数量更重要。精心构建的数据组合可以引导预训练模型产生不同的特性。

例如,实验显示:

  • 专注于特定任务的数据、探索性的“做任何事”数据以及介于两者之间的数据,会对模型的最终表现产生不同影响。
  • 具有低预测错误和低“逆 KL 散度”(一种衡量模式寻求行为的指标)的模型,在有监督的微调中表现更好。
  • 而具有高预测错误和低“逆 KL 散度”的模型,则表现出更强的多模态分布特性,这有助于后续的强化学习。

通过与多个数据合作伙伴的合作,我们能够持续进行 A/B 测试,以评估哪种数据、哪种收集方式以及哪种方法能最大程度地改进模型。