谷歌发布了 Gemini Robotics-ER 1.6,这是一个专注于物理世界推理的机器人模型。它显著增强了机器人的空间推理、多视角理解和任务成功检测能力。一个关键的新功能是精准读取工业仪表,例如压力表和液位计。该模型通过结合视觉分析和代码执行来实现更高级的自主决策,并提升了物理安全性能。目前,开发者可以通过 API 和 Google AI Studio 使用该模型。
什么是“具身推理”?
为了让机器人在日常和工业环境中真正发挥作用,它们不仅要遵循指令,还必须能够对物理世界进行推理。所谓的 “具身推理” (embodied reasoning) 就是连接数字智能与物理行动的桥梁,让机器人能够理解复杂的环境或读取压力表上的指针。
Gemini Robotics-ER 1.6 模型专注于提升机器人的具身推理能力,使其能够以前所未有的精度理解周围环境。
- 核心功能: 视觉与空间理解、任务规划、成功检测。
- 工作方式: 作为一个高级推理模型,它能调用谷歌搜索等工具查找信息,或调用其他视觉语言模型来执行任务。
核心能力提升
Gemini Robotics-ER 1.6 在空间和物理推理能力上,相比之前的版本有显著改进。
指向能力:空间推理的基础
指向能力是具身推理模型的基础,它被用于表达多种复杂的概念:
- 空间推理: 精确地检测和计数物体。
- 关系逻辑: 进行比较,如识别一组物品中最小的一个。
- 运动推理: 规划运动轨迹和识别最佳抓取点。
- 遵守约束: 理解复杂指令,如“指向所有能放进蓝色杯子的小物件”。
例如,在识别一堆工具时,Gemini Robotics-ER 1.6 能准确指出锤子 (2个)、剪刀 (1个)、画笔 (1个) 和钳子 (6个) 的数量,并且不会错误地指向图片中不存在的物品。
成功检测:实现自主决策的关键
在机器人学中,知道任务何时完成与知道如何开始同样重要。“成功检测”是实现自主决策的核心,它让机器人能智能地判断是重试失败的动作,还是继续下一步计划。
为了应对遮挡、光线不佳和指令模糊等复杂情况,机器人需要先进的感知和推理能力。
Gemini Robotics-ER 1.6 提升了多视角推理能力,能更好地整合来自多个摄像头(如头顶和手腕上的摄像头)的信息,从而更准确地判断任务是否完成。
仪表读取:真实世界的视觉推理
这项新功能源于与波士顿动力公司 (Boston Dynamics) 在设施巡检方面的合作。工业设施中有大量需要持续监控的仪表,如温度计、压力表和液位计。
Gemini Robotics-ER 1.6 使机器人能够解读各种仪表:
- 圆形压力表
- 垂直液位指示器
- 现代数字读数
“像仪表读取和更可靠的任务推理这样的能力,将使我们的 Spot 机器人能够完全自主地观察、理解并应对现实世界的挑战。” — Marco da Silva,波士顿动力公司 Spot 总经理
该功能通过 “代理视觉” (agentic vision) 实现,它结合了视觉推理和代码执行。模型会先放大仪表细节,然后利用指向和代码执行来估算刻度和比例,最终得出精确读数。
更安全的机器人模型
安全性被集成在模型的每一层。Gemini Robotics-ER 1.6 是迄今为止最安全的机器人模型,在遵守物理安全约束方面表现更佳。
- 物理安全: 模型能做出更安全的决策,例如,它会遵循“不处理液体”或“不拾取超过20公斤的物体”等指令。
- 风险识别: 在识别基于真实伤害报告的文本和视频场景中的安全隐患时,该模型比基准模型表现更好。
协作与使用
谷歌致力于让 Gemini Robotics-ER 为机器人社区提供最大价值,并邀请开发者提交特定应用中的失败案例,以帮助其构建更强大的推理功能。
开发者现在可以通过 Gemini API 和 Google AI Studio 开始使用 Gemini Robotics-ER 1.6。