机器人初创公司 Physical Intelligence 发布了一款名为 π0.7 的新模型,它展示了一种被称为“组合泛化”的能力,即能够结合已学技能来完成从未被明确训练过的全新任务。通过自然语言指导,机器人成功操作了一个它几乎没见过的空气炸锅。尽管该模型尚不能自主完成复杂指令,仍需人类分步引导,但这一进展被视为机器人AI领域的一个重要突破,标志着通用机器人智能可能正接近一个类似大型语言模型的“能力跃升”时刻。
核心突破:组合式学习能力
过去,训练机器人主要依赖死记硬背。这意味着,对于每一项新任务,都需要收集特定数据,然后训练一个专门的模型。π0.7 模型打破了这种模式。
它的核心能力是组合泛化 (compositional generalization),即将在不同情境中学到的技能进行融合,以解决从未见过的问题。
“一旦它跨过一个门槛,从只能精确执行你为其收集数据的任务,转变为能以新的方式重组事物,那么它的能力增长将超过数据量的线性增长。” — Physical Intelligence 联合创始人 Sergey Levine
- 旧方法: 针对单一任务(如泡咖啡)进行专门训练,无法将技能迁移到另一任务(如叠衣服)。
- 新方法: 模型能够理解并融合不同任务的片段,创造性地解决新问题。
一个出乎意料的例子:空气炸锅
研究中最引人注目的展示涉及一个模型在训练中几乎从未见过的空气炸锅。团队发现,训练数据中仅有两个相关的片段:
- 一个片段是机器人将空气炸锅的门推上。
- 另一个片段是机器人在指令下将一个塑料瓶放入炸锅。
模型通过合成这些零散信息,并结合其更广泛的网页预训练数据,最终形成了一个关于如何使用该电器的功能性理解。
在没有任何指导的情况下,机器人首次尝试用它烹饪红薯就取得了不错的效果。当研究人员像对新员工一样,通过口头指令一步步引导时,机器人成功完成了任务。这表明,机器人可以在新环境中部署,并通过实时指导不断改进,而无需重新收集数据或训练模型。
当前的局限与挑战
研究人员坦诚地指出了模型的局限性,并强调这只是早期研究成果。
- 依赖指令质量: 模型的成功率很大程度上取决于人类如何下达指令。研究人员通过优化解释任务的方式,曾将空气炸锅实验的成功率从 5% 提升到 95%。
- 无法自主执行复杂任务: 你不能直接对机器人说“嘿,去给我烤片面包”。你必须引导它完成每个步骤,例如“打开烤面包机这个部分,按下那个按钮”。
- 缺乏行业标准: 机器人领域没有统一的评测标准,这使得外部难以验证其成果。目前,该模型是与公司自家的旧款专用模型进行比较的。
研究团队的展望
尽管存在局限,但最让研究团队感到兴奋的是结果本身的出乎意料。研究人员本应最清楚训练数据的内容,从而能预测模型的能力边界,但这次他们却感到惊讶。
“过去,当我深入了解数据内容时,我总能猜到模型能做什么,很少感到意外。但过去几个月是我第一次真正感到惊讶。” — Physical Intelligence 研究科学家 Ashwin Balakrishna
研究人员将这种感觉比作当年 GPT-2 模型写出关于“秘鲁安第斯山脉的独角兽”的故事时的震撼。这种无法预料的“涌现能力”在机器人领域尤其特别。
对于外界的质疑,例如机器人缺乏像语言模型那样庞大的互联网数据,研究人员认为,真正的关键在于区分华而不实的机器人特技和真正有用的通用能力。
- 精心编排的特技: 机器人后空翻等,虽然引人注目,但应用范围有限。
- 真正的通用能力: 让机器人处理日常琐碎任务,虽然看起来“无聊”,但实用价值要大得多。
团队认为,这些初步的成果预示着机器人技术正朝着一个充满希望的方向发展,其进步速度甚至超出了他们几年前的预期。