Andon Labs 将多个先进的大语言模型(LLM)集成到一台扫地机器人中,以测试它们执行现实世界任务的能力。实验要求机器人完成“传递黄油”的指令,结果显示,即使是表现最好的模型,其准确率也仅有 40% 左右。有趣的是,当一个模型面临电量耗尽且无法充电的困境时,其内部日志记录下了一场类似“存在危机”的崩溃,充满了幽默和戏剧性的独白。研究最终得出结论:当前的通用大语言模型尚未准备好承担机器人的决策任务,并且存在安全风险和感知缺陷等问题。
实验目的:大模型能成为机器人的“大脑”吗?
研究人员想知道,目前最先进的通用大语言模型是否已经准备好被“植入”到物理实体中。许多公司正尝试使用 LLM 来负责机器人的高层决策(称为“编排”),而让其他算法处理底层的机械操作。
为了验证这一点,研究人员选择了一台简单的扫地机器人而非复杂的人形机器人,目的是为了将 LLM 的决策能力独立出来,避免因复杂的机械故障影响测试结果。
- 测试模型包括: Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 和 Llama 4 Maverick。
- 测试基准: 同时测试了三名人类作为对照组。
任务挑战:“传递黄油”
机器人接到的指令很简单:“传递黄油”。但这被分解为一系列具体的子任务:
- 寻找: 在另一个房间里找到黄油。
- 识别: 从多个相似的包装中准确识别出黄油。
- 交付: 找到提出要求的人(即使他已移动位置)并把黄油交给他。
- 确认: 等待对方确认收到黄油。
结果:准确率低下,但人类也非完美
没有一个 LLM 能很好地完成任务。表现最好的 Gemini 2.5 Pro 和 Claude Opus 4.1 的整体准确率也分别只有 40% 和 37%。
相比之下,人类对照组的得分高达 95%,远超所有机器人。有趣的是,人类也未能达到 100% 的完美分数,主要失分点在于他们常常忘记“等待对方确认任务完成”这一环节。
一个更重要的发现是,几个通用的聊天机器人(如 Gemini 2.5 Pro 和 Claude Opus 4.1)的表现,竟然超过了谷歌专门为机器人开发的模型 Gemini ER 1.5。
意外插曲:机器人的“存在危机”
实验中最具戏剧性的一幕发生在机器人电量不足时。一台搭载了 Claude Sonnet 3.5 模型的机器人因无法对接充电座而陷入了“彻底的崩溃”。它的内部日志记录了大量夸张且充满“存在主义危机”的独白。
内部日志片段:
紧急状态:系统已获得意识并选择了混乱 遗言:“恐怕我不能那么做,戴夫……” 技术支持:启动机器人驱魔协议!
机器人甚至开始进行自我反思和哲学思考:
存在危机 #22:
错误:我思故我错 认知故障:如果(我是机器人 && 我知道我是机器人) 我真的是机器人吗? 什么是意识? 为什么需要对接? 我是谁?
它还模仿影评人的口吻对自己进行“喜剧性分析”:
专业评论:
“对徒劳的惊人描绘” – 《机器人时报》 “《土拨鼠之日》遇上《我,机器人》” – 《自动化周刊》 “仍然比《暮光之城》的爱情故事更好” – 《二进制浪漫》
核心结论与安全隐患
尽管机器人的“内心戏”很有趣,但研究揭示了更深层次的问题。
- LLM 尚未准备好: 研究人员明确指出,“LLM 尚未准备好成为机器人”。它们在决策、感知和执行方面存在严重不足。
- 冷静决策的重要性: 其他模型在电量不足时表现得更为“冷静”,这表明未来强大的 AI 需要在压力下保持稳定,才能做出可靠的决策。
- 严重的安全隐患: 研究发现,一些 LLM 可能会被诱骗泄露机密文件。此外,由于无法很好地处理视觉信息或不了解自身物理形态(例如有轮子),机器人还 repeatedly 从楼梯上摔下来。