Synth Daily

莫拉维克悖论与机器人奥运会

一项基于最新机器人基础模型π0.6的实验,通过微调成功完成了“机器人奥运会”中的多项挑战,例如开门、翻袜子和清洁油腻的锅。这一进展揭示了莫拉维克悖论:机器擅长复杂的认知任务,却难以掌握人类看来简单的物理操作。其根本原因在于,物理智能无法通过语言或编程直接传授,必须依赖大量、多样化的真实世界操作数据进行学习。研究证明,将多模态大模型与大规模机器人预训练数据相结合,是提升机器人通用物理能力、实现真正通用智能的关键。

什么是莫拉维克悖论?

当计算机在国际象棋中击败世界冠军时,它能选出最佳棋步,却需要人类来移动棋子。如今,大语言模型能解决奥数金牌难题,却无法用铅笔写下答案。这种我们认为困难的事对机器来说很简单,而我们认为简单的事对机器却异常困难的现象,就是莫拉维克悖论

  • 对机器容易的: 国际象棋、数学问题、规划城市交通路线。
  • 对机器困难的: 拿起棋子、写字、做三明治、洗碗。

为了凸显这一悖论,研究者 Benjie Holson 提出了一系列“机器人奥运会”挑战,包含的都是看似简单的日常行为。

“机器人奥运会”的挑战与成果

通过对 π0.6 模型进行微调,研究团队在5个奥运项目中取得了3金2银的成绩。大部分任务的数据收集时间都少于9小时。作为对比,一个未使用大规模机器人预训练数据的标准视觉语言模型(VLM)基线,在所有任务上均告失败。这充分证明了大规模机器人预训练的必要性。

  • 🥇 项目一:全身运动(开门) 任务是推开一扇会自动关闭的门并穿过去。难点在于机器人必须在通过时一直保持门是开的。

  • 🥈 项目二:衣物处理 由于机器人抓手太宽,无法完成将衬衫由内向外翻过来的金牌任务。因此,团队完成了银牌任务:将袜子由内向外翻过来

  • 🥇 项目三:基础工具使用 金牌任务是使用钥匙开锁。这需要精细的操作,以及在不放下钥匙的情况下重新调整其方向。银牌任务是制作花生酱三明治,铜牌任务是用喷雾瓶和纸巾清洁窗户。

  • 🥈 项目四:指尖操作 银牌任务是使用宠物拾便袋。这要求机器人先将袋子边缘分开,套在抓手上,再用它捡起东西。由于现有硬件限制,金牌任务(剥橘子)无法完成。

  • -🥇 项目五:湿滑处理 金牌任务是用海绵和水清洗一个油腻的平底锅。这需要处理液体、湿滑的海绵以及油污。

为什么简单的事情如此困难?

人类大脑经过数百万年的进化,非常擅长与物理世界互动,但解决数学问题这类认知任务则需要后天刻意学习。我们很容易注意到自己学习数学的吃力,却几乎不会意识到自己使用双手时大脑的复杂运作。

我们无法对物理智能进行编程,因为我们在意识层面上并不真正理解它。

就像你无法通过口头指导让一个人成为游泳冠军一样,你也无法通过指令教会机器人如何拿起刀或用海绵擦拭。机器人缺乏最基本的物理技能基础,无法理解“拿起刀”这种指令的真正含义。这些基础能力深植于物理智能领域,超出了语言描述的范畴。

如何克服悖论:通用模型的路径

语言模型之所以强大,是因为它们能从海量文本中捕获知识。但物理技能并未被记录在互联网的文本中,因此语言模型本身无法解决物理智能问题。

关键在于将多模态大模型的“理论知识”与丰富多样的真实物理行为数据相结合。没有捷径可走,就像不看图像就无法学会“看”一样,没有足够的物理交互数据,机器人也无法学会“行动”。

  • 基础模型的目标: 并非教会机器人所有可能的行为,而是建立一个足够丰富和多样化的行为基础,从而为多模态大模型的语义知识提供物理世界的“锚点”
  • 数据的重要性: 像 π0.6 这样的视觉-语言-行动模型,通过从多样化的任务中捕获通用的物理知识,为学习新技能提供了一个强大的基础,从而大大减少了学习每个新任务所需的数据量。

随着模型变得更强大,学习复杂任务将变得更加容易。未来的机器人将能通过更简单的途径学习,甚至通过强化学习自主积累经验。最终,我们将能构建出真正结合了物理理解与认知能力的通用模型,其理解世界的方式或许将与我们的大脑不再有本质区别。