Google 发布了 Gemini 2.5 Computer Use 模型,这是一款专门的工具,旨在让开发者能够创建可直接与网站和移动应用等图形用户界面 (GUI) 交互的 AI 智能体。该模型在性能和速度上均优于现有方案,能让 AI 像人一样完成填写表单、点击按钮和浏览网页等任务。目前,开发者已可通过 Gemini API 在 Google AI Studio 和 Vertex AI 中使用此模型。
为何需要与用户界面交互
尽管许多软件可以通过结构化的 API 进行控制,但大量的数字任务仍然需要直接操作图形界面。为了完成这些任务,AI 智能体必须像人类一样学习浏览网页和应用程序。
- 常规操作: 能够点击、打字和滚动是基础。
- 关键能力: 真正强大的通用智能体需要具备填写表单、操作下拉菜单和过滤器,甚至在登录后执行任务的能力。
工作原理
该模型的核心能力通过 Gemini API 中新增的 computer_use 工具实现,并在一个循环流程中运行。
- 输入: 开发者向模型提供用户请求、当前环境的屏幕截图以及最近的操作历史。
- 分析与响应: 模型分析这些输入,并生成一个代表 UI 操作(如点击或输入文本)的指令。对于购买等高风险操作,模型会要求终端用户确认。
- 执行: 客户端代码执行模型返回的指令。
- 反馈与循环: 操作完成后,新的屏幕截图和当前网址被发送回模型,重新开始循环。这个过程会一直持续,直到任务完成、发生错误或被用户/安全系统终止。
该模型主要针对 网页浏览器 进行了优化,但在移动端 UI 控制方面也展现出巨大潜力。目前尚未针对桌面操作系统级别的控制进行优化。
性能表现
Gemini 2.5 Computer Use 模型在多个网页和移动端控制基准测试中表现出色。它在提供顶尖浏览器控制质量的同时,也保持了 更低的延迟。
在 Browserbase 的 Online-Mind2Web 测试中,该模型在保持高准确率的同时,实现了领先的低延迟性能。
安全性设计
让 AI 智能体控制计算机带来了独特的风险,包括用户恶意滥用、模型意外行为以及网络环境中的提示注入和诈骗。因此,从一开始就负责任地构建至关重要。
我们已将安全功能直接训练到模型中,以应对三大关键风险。此外,我们还为开发者提供了额外的安全控制措施:
- 逐步安全服务: 这是一个在模型之外运行的实时安全服务,它会在模型提议的每个动作执行前进行评估。
- 系统指令: 开发者可以进一步规定,在执行某些高风险操作(如损害系统完整性、绕过验证码或控制医疗设备)之前,智能体必须拒绝或请求用户确认。
早期应用案例
一些团队已经将该模型用于实际生产中,并取得了显著成果。
“在我们的许多工作流程中,与为人类设计的界面进行交互至关重要,而速度是关键。Gemini 2.5 Computer Use 遥遥领先于竞争对手,通常比我们考虑过的次优解决方案快 50% 且效果更好。” — Poke.com,一个 AI 助手
“我们的智能体完全自主运行,在收集和解析数据时不允许出现微小错误。Gemini 2.5 Computer Use 在可靠解析复杂情境方面超越了其他模型,在我们最难的评估中将性能提升了高达 18%。” — Autotab,一个 AI 智能体
Google 内部的支付平台团队也使用该模型作为应急机制,修复了超过 60% 的脆弱 UI 测试,这些测试过去需要数天才能修复。
如何开始使用
该模型现已公开发布预览版,可通过 Google AI Studio 和 Vertex AI 中的 Gemini API 进行访问。
- 立即试用: 在由 Browserbase 托管的演示环境中体验。
- 开始构建: 阅读我们的参考资料和文档,学习如何构建自己的智能体。
- 加入社区: 在开发者论坛中分享您的反馈和作品。