谷歌发布了基于其最新 Gemini 3 Pro 模型的 AI 研究代理工具 Gemini Deep Research。该工具不仅能生成研究报告,还通过新的 Interactions API 允许开发者将研究能力嵌入自己的应用中。尽管谷歌宣称其在处理复杂任务和减少错误方面表现优异,并为此发布了新的基准测试,但 OpenAI 在同一天推出的 GPT 5.2 模型在多项测试中表现更佳,凸显了两家公司在 AI 领域的激烈竞争。
全新的 AI 研究工具
谷歌发布了其研究代理工具的“重构版”——Gemini Deep Research。这个新工具的核心是谷歌最先进的基础模型 Gemini 3 Pro。
- 新的开发者接口: 通过全新的 Interactions API,开发者现在可以将谷歌的顶尖研究能力直接集成到自己的应用程序中,这为即将到来的代理式 AI 时代提供了更多控制权。
- 主要功能: 该代理工具擅长整合海量信息,并能处理提示词中包含的大量上下文。
核心能力与应用场景
谷歌表示,客户已将该工具用于从商业尽职调查到药物毒性安全研究等多种任务。未来,谷歌计划将这个深度研究代理整合到更多服务中:
- Google 搜索
- Google 财经
- Gemini 应用
- NotebookLM
这一系列举措表明,我们正在迈向一个人类不再亲自“谷歌”信息,而是由 AI 代理完成搜索工作的世界。
解决关键问题:AI 幻觉
AI 模型凭空捏造信息的“幻觉”现象,对于需要长时间运行和深度推理的代理任务来说是一个致命缺陷。一个错误的决策就可能导致整个任务的输出无效。
谷歌强调,Gemini Deep Research 得益于 Gemini 3 Pro 模型“最注重事实”的特性,该模型经过专门训练,旨在最大程度地减少在执行复杂任务时产生幻觉。
性能基准测试
为了证明其性能,谷歌创建并开源了一个名为 DeepSearchQA 的新基准测试,专门用于评估代理在复杂、多步骤信息搜寻任务中的表现。
- 在自家的 DeepSearchQA 和另一个名为 Humanity's Last Exam 的通用知识测试中,谷歌的新代理表现出色。
- 然而,在用于浏览器代理任务的 BrowserComp 基准测试中,OpenAI 的模型表现略胜一筹。
与 OpenAI 的激烈竞争
就在谷歌发布基准测试结果的同一天,OpenAI 推出了备受期待的 GPT 5.2 模型(代号 Garlic)。OpenAI 声称,其最新模型在一系列典型基准测试中击败了所有竞争对手,尤其是谷歌。
这次发布的时机本身就极具看点。在全世界都在等待 OpenAI 发布新模型之际,谷歌抢先发布了自己的 AI 新闻,充分展示了双方在技术竞赛中的紧张对峙。