谷歌正在探索一种由 Gemini 驱动的 AI 鼠标指针,旨在让用户通过简单的“指向”和“说话”就能与 AI 互动,而无需编写复杂的提示词。其核心理念是让 AI 融入用户已有的工作流程,而不是打断他们。这套方案基于四个核心原则:保持操作流畅、结合视觉与语言、利用自然指令,以及将屏幕上的像素转化为可操作的实体。这些功能已开始在 Chrome 和新款 Googlebook 中应用。
传统 AI 工具的痛点
半个多世纪以来,鼠标指针几乎没有变化。尽管技术日新月异,但指针仍然只是一个简单的定位工具。我们常常遇到的一个烦恼是,AI 工具通常存在于独立的窗口中,用户需要将自己的工作内容“拖拽”到 AI 工具里去处理。
我们想要的是相反的效果:让直观的 AI 在用户使用的所有工具中为他们提供帮助,而无需打断他们的工作流程。
例如,当你指向一张建筑物的图片并说“给我显示路线”时,AI 系统应该已经理解了上下文,无需更多信息。
四个交互原则
为了实现这一目标,我们制定了四个交互原则,旨在将传递背景信息和意图的繁重工作从用户转移到计算机上,用更简单、更直观的互动取代冗长的文本提示。
保持操作流畅 AI 功能应该能跨越所有应用工作,而不是强迫用户在应用之间进行“AI 绕道”。例如,用户可以直接指向一个 PDF 文件,要求生成要点摘要并粘贴到邮件中;或者悬停在数据表格上,要求生成一个饼图。
指和说 目前的 AI 模型需要精确的指令。为了得到好的结果,用户必须写出详细的提示。一个支持 AI 的指针可以通过捕捉指针周围的视觉和语义信息来简化这个过程,让计算机“看到”并理解什么对用户重要。用户只需指向屏幕,AI 就能知道用户需要帮助的是哪个词、段落、图片区域或代码块。
拥抱“这个”和“那个”的力量 在日常交流中,人们很少用冗长、详细的段落说话。我们可能会说“修复这个”、“把那个移到这里”或“这是什么意思?”。我们依赖手势和共同的语境来填补语言上的空白。一个能理解 上下文、指向和语音 组合的 AI 系统,将允许用户用自然的简略方式发出复杂请求,无需繁琐的提示。
将像素转化为可交互的实体 几十年来,计算机只追踪我们指向的位置。现在,AI 还能理解用户 指向的是什么。这能将静态的像素转化为结构化的、可交互的实体,比如地点、日期和物品。一张手写笔记的照片可以变成一个交互式的待办事项列表;旅行视频中暂停的一帧可以变成那个餐厅的预订链接。
实际产品中的应用
我们正在将这些原则整合到产品中,以重新构想 Chrome 和新款 Googlebook 笔记本电脑的指针体验。
现在,你无需编写复杂的提示,可以直接用指针向 Chrome 中的 Gemini 询问你关心的网页部分。例如,你可以选择页面上的几款产品并要求比较,或者指向客厅图片中的某个位置来预览新沙发的效果。
同样,我们很快将在 Googlebook 中推出 “魔法指针” (Magic Pointer),让用户可以通过指尖轻松利用 Gemini,获得更直观的体验。我们将在包括 Google Labs 的 Disco 在内的各个平台上继续测试未来的概念。