双子机器人-ER 1.6

谷歌发布了 Gemini Robotics-ER 1.6，这是一个专注于物理世界推理的机器人模型。它显著增强了机器人的空间推理、多视角理解和任务成功检测能力。一个关键的新功能是精准读取工业仪表，例如压力表和液位计。该模型通过结合视觉分析和代码执行来实现更高级的自主决策，并提升了物理安全性能。目前，开发者可以通过 API 和 Google AI Studio 使用该模型。

什么是“具身推理”？

为了让机器人在日常和工业环境中真正发挥作用，它们不仅要遵循指令，还必须能够对物理世界进行推理。所谓的 “具身推理” (embodied reasoning) 就是连接数字智能与物理行动的桥梁，让机器人能够理解复杂的环境或读取压力表上的指针。

Gemini Robotics-ER 1.6 模型专注于提升机器人的具身推理能力，使其能够以前所未有的精度理解周围环境。

核心功能: 视觉与空间理解、任务规划、成功检测。
工作方式: 作为一个高级推理模型，它能调用谷歌搜索等工具查找信息，或调用其他视觉语言模型来执行任务。

核心能力提升

Gemini Robotics-ER 1.6 在空间和物理推理能力上，相比之前的版本有显著改进。

指向能力：空间推理的基础

指向能力是具身推理模型的基础，它被用于表达多种复杂的概念：

空间推理: 精确地检测和计数物体。
关系逻辑: 进行比较，如识别一组物品中最小的一个。
运动推理: 规划运动轨迹和识别最佳抓取点。
遵守约束: 理解复杂指令，如“指向所有能放进蓝色杯子的小物件”。

例如，在识别一堆工具时，Gemini Robotics-ER 1.6 能准确指出锤子 (2个)、剪刀 (1个)、画笔 (1个) 和钳子 (6个) 的数量，并且不会错误地指向图片中不存在的物品。

成功检测：实现自主决策的关键

在机器人学中，知道任务何时完成与知道如何开始同样重要。“成功检测”是实现自主决策的核心，它让机器人能智能地判断是重试失败的动作，还是继续下一步计划。

为了应对遮挡、光线不佳和指令模糊等复杂情况，机器人需要先进的感知和推理能力。

Gemini Robotics-ER 1.6 提升了多视角推理能力，能更好地整合来自多个摄像头（如头顶和手腕上的摄像头）的信息，从而更准确地判断任务是否完成。

仪表读取：真实世界的视觉推理

这项新功能源于与波士顿动力公司 (Boston Dynamics) 在设施巡检方面的合作。工业设施中有大量需要持续监控的仪表，如温度计、压力表和液位计。

Gemini Robotics-ER 1.6 使机器人能够解读各种仪表：

圆形压力表
垂直液位指示器
现代数字读数

“像仪表读取和更可靠的任务推理这样的能力，将使我们的 Spot 机器人能够完全自主地观察、理解并应对现实世界的挑战。” — Marco da Silva，波士顿动力公司 Spot 总经理

该功能通过 “代理视觉” (agentic vision) 实现，它结合了视觉推理和代码执行。模型会先放大仪表细节，然后利用指向和代码执行来估算刻度和比例，最终得出精确读数。

更安全的机器人模型

安全性被集成在模型的每一层。Gemini Robotics-ER 1.6 是迄今为止最安全的机器人模型，在遵守物理安全约束方面表现更佳。

物理安全: 模型能做出更安全的决策，例如，它会遵循“不处理液体”或“不拾取超过20公斤的物体”等指令。
风险识别: 在识别基于真实伤害报告的文本和视频场景中的安全隐患时，该模型比基准模型表现更好。

协作与使用

谷歌致力于让 Gemini Robotics-ER 为机器人社区提供最大价值，并邀请开发者提交特定应用中的失败案例，以帮助其构建更强大的推理功能。

开发者现在可以通过 Gemini API 和 Google AI Studio 开始使用 Gemini Robotics-ER 1.6。