Synth Daily

Fetch 项目:第二阶段

在一项名为“Project Fetch”的实验中,Anthropic 测试了其 AI 模型 Claude 操作实体机器人的能力。结果显示,最新的 Claude Opus 4.7 无需人类协助,就能以比人类团队快十几到几十倍的速度完成多项任务,展现了高效的自主性。然而,在需要精确控制的“捡球”环节,它仍然表现吃力。这一进展表明,AI 正从辅助人类、与人类协作,逐步走向能够独立使用物理工具,预示着物理世界中的“代理式 AI” 正在萌芽。

实验回顾:新旧对比

最初的 Project Fetch 实验旨在观察 Claude 模型能多大程度上帮助非机器人专家来操作一个四足机器人。结果发现,得到 Claude 辅助的团队表现远超仅靠自己摸索的团队。

但当时,模型本身无法独立完成任务。一年后,情况发生了巨大变化。

  • 旧模型 (Claude Opus 4.1): 无法独立完成任务,甚至在最开始的“连接机器人”步骤上就卡住了。
  • 新模型 (Claude Opus 4.7): 无需人类协助,在不到一年前人类参与者完成的所有任务上,速度快了约 20 倍

我们再次看到了一个模式:首先,模型对人类有帮助。然后,人类对模型有帮助。最后,模型在很大程度上能够自己完成任务。

克劳德的强项:速度与效率

新模型在之前人类团队完成的任务上表现出了压倒性的速度优势。

  • 在人类团队去年完成的每一项任务上,Claude Opus 4.7 的完成速度至少快了 10 倍
  • 与两个人类团队相比,新模型的平均速度优势更加明显:
    • 无克劳德团队37 倍以上。
    • 有克劳德团队18 倍以上。

除了速度,效率也极高。新模型能迅速找到最佳解决方案,编写的代码量比人类团队少了近 10 倍,且代码首次尝试的成功率很高。即使偶尔选择了过时的算法,它也能自行找到变通方法,最终解决问题。

克劳德的弱点:精确的闭环控制

尽管进步显著,但 AI 尚未完全解决机器人技术。实验中最关键的“取回”部分——精确地移动一个沙滩球——仍然是其短板。

人类在经过练习后,可以熟练地操控机器人轻推沙滩球。这个过程需要:

  • 快速感知球的路线是否偏离。
  • 理解错误与上一个指令的关系。
  • 调整后续指令以精确移动球。

这是一种人类擅长的闭环控制能力。Claude 虽然能让机器人移动到球的后方并尝试推动,但整个过程控制不佳,最终未能成功。它无法像人类一样,通过感知、反馈和调整来巧妙地完成任务。

这意味着什么?

这个实验揭示了一个重要的转变。过去,我们讨论的是 AI 如何辅助人类使用工具;现在,我们看到 AI 已经越来越接近独立使用现成的物理工具

这与 AI 在编程领域的演进非常相似:它们先是学会使用现有的软件工具,然后发展出更具代理性的编码能力。如今,同样的趋势正在物理世界显现,我们可能正进入物理世界代理式 AI 的早期时代

虽然要实现更通用的、能自主设计和适应物理任务的 AI 模型还有很长的路要走,但模型能力的发展速度常常超出预期。不久前,AI 自己构建软件工具似乎还很遥远,但现在正在发生。因此,我们不应排除它们在硬件领域也遵循同样的发展轨迹。