重新构想 AI 时代的鼠标指针

谷歌正在探索一种由 Gemini 驱动的 AI 鼠标指针，旨在让用户通过简单的“指向”和“说话”就能与 AI 互动，而无需编写复杂的提示词。其核心理念是让 AI 融入用户已有的工作流程，而不是打断他们。这套方案基于四个核心原则：保持操作流畅、结合视觉与语言、利用自然指令，以及将屏幕上的像素转化为可操作的实体。这些功能已开始在 Chrome 和新款 Googlebook 中应用。

传统 AI 工具的痛点

半个多世纪以来，鼠标指针几乎没有变化。尽管技术日新月异，但指针仍然只是一个简单的定位工具。我们常常遇到的一个烦恼是，AI 工具通常存在于独立的窗口中，用户需要将自己的工作内容“拖拽”到 AI 工具里去处理。

我们想要的是相反的效果：让直观的 AI 在用户使用的所有工具中为他们提供帮助，而无需打断他们的工作流程。

例如，当你指向一张建筑物的图片并说“给我显示路线”时，AI 系统应该已经理解了上下文，无需更多信息。

四个交互原则

为了实现这一目标，我们制定了四个交互原则，旨在将传递背景信息和意图的繁重工作从用户转移到计算机上，用更简单、更直观的互动取代冗长的文本提示。

保持操作流畅 AI 功能应该能跨越所有应用工作，而不是强迫用户在应用之间进行“AI 绕道”。例如，用户可以直接指向一个 PDF 文件，要求生成要点摘要并粘贴到邮件中；或者悬停在数据表格上，要求生成一个饼图。
指和说 目前的 AI 模型需要精确的指令。为了得到好的结果，用户必须写出详细的提示。一个支持 AI 的指针可以通过捕捉指针周围的视觉和语义信息来简化这个过程，让计算机“看到”并理解什么对用户重要。用户只需指向屏幕，AI 就能知道用户需要帮助的是哪个词、段落、图片区域或代码块。
拥抱“这个”和“那个”的力量 在日常交流中，人们很少用冗长、详细的段落说话。我们可能会说“修复这个”、“把那个移到这里”或“这是什么意思？”。我们依赖手势和共同的语境来填补语言上的空白。一个能理解 上下文、指向和语音 组合的 AI 系统，将允许用户用自然的简略方式发出复杂请求，无需繁琐的提示。
将像素转化为可交互的实体 几十年来，计算机只追踪我们指向的位置。现在，AI 还能理解用户 指向的是什么。这能将静态的像素转化为结构化的、可交互的实体，比如地点、日期和物品。一张手写笔记的照片可以变成一个交互式的待办事项列表；旅行视频中暂停的一帧可以变成那个餐厅的预订链接。

实际产品中的应用

我们正在将这些原则整合到产品中，以重新构想 Chrome 和新款 Googlebook 笔记本电脑的指针体验。

现在，你无需编写复杂的提示，可以直接用指针向 Chrome 中的 Gemini 询问你关心的网页部分。例如，你可以选择页面上的几款产品并要求比较，或者指向客厅图片中的某个位置来预览新沙发的效果。

同样，我们很快将在 Googlebook 中推出 “魔法指针” (Magic Pointer)，让用户可以通过指尖轻松利用 Gemini，获得更直观的体验。我们将在包括 Google Labs 的 Disco 在内的各个平台上继续测试未来的概念。