谷歌最新的 Gemini 任务自动化功能让 AI 首次在手机上实现了真正意义上的自主操作。虽然目前仍处于测试阶段且运行速度较慢,但它能够跨应用提取日历和邮件信息,在后台独立完成外卖订餐和打车等复杂任务。这标志着移动助手正从简单的指令响应转向真正的智能代理。
核心能力:不仅仅是演示
目前的 Gemini 任务自动化已不再局限于发布会的演示视频,而是在 Pixel 10 Pro 和 Galaxy S26 Ultra 等旗舰机型上落地。
- 自主操作: AI 可以像人一样“浏览”并操控应用程序,目前支持主流的外卖和网约车服务。
- 后台运行: 尽管 AI 的操作速度比人慢(例如完成一次订餐可能需要 9 分钟),但它在后台运行,用户可以继续处理其他事务。
- 智能理解: 它能处理模糊的指令。即便菜单上的描述与用户的口语不完全一致(如“拼盘”与“套餐”),AI 也能通过推理做出正确选择。
令人惊艳的跨场景协作
这项技术最核心的突破在于对个人上下文的深度整合。
- 主动规划: 通过读取邮件中的航班信息和日历安排,Gemini 能自动建议出发时间并准备好打车订单。
- 准确度极高: 在实际测试中,AI 很少出错,它会自动停在最后的“支付确认”页面,确保人类用户拥有最终控制权。
- 自我纠错: 当遇到位置权限或地址错误等障碍时,用户手动干预后,AI 能无缝接管并继续剩余流程。
“这是我第一次看到真正的 AI 助手在手机上实际工作,而不是在主题演讲或受控的演示厅里。”
现状与未来的冲突
目前的自动化过程展示了一个尴尬的现实:现有的 App 界面是为人类设计的,并不适合 AI。
- 冗余信息: 吸引人类的精美图片和折扣广告对 AI 而言只是干扰。
- 效率瓶颈: AI 像人类一样在屏幕上模拟点击和滑动是非常低效且脆弱的。
- 未来的方向: 真正的解决方案是让开发者采用如 Model Context Protocol (MCP) 这样的协议,直接为 AI 提供数据接口,而非让 AI 费力地去模拟人工操作。
关键洞见
- 后台化是关键: 任务自动化的价值不在于“快”,而在于“不占用用户时间”。
- 安全防线: AI 处理过程,人类最后确认(Human-in-the-loop),是当前最稳妥的使用模式。
- 过渡方案: 这种“模拟点击”的自动化更像是一种向未来过渡的补丁,旨在倒逼开发者为 AI 重新设计应用接口。
虽然现在的体验可能显得慢吞吞且有些笨重,但它确实为我们展示了移动设备交互的新逻辑:手机不再仅仅是运行 App 的容器,而是一个能够理解你意图并替你执行任务的私人代理。