Synth Daily

通义 DeepResearch——开源 30B MoE 大模型,实力媲美 OpenAI DeepResearch

阿里巴巴发布了开源 AI 代理模型 Tongyi DeepResearch,其性能可与 OpenAI 的同类产品媲美。该模型完全依赖合成数据进行训练,涵盖了持续预训练、监督微调和强化学习的全过程。它引入了创新的多轮推理框架(IterResearch)和多种推理模式,并已成功应用于高德地图和法律研究等实际场景。

模型性能与定位

通义 DeepResearch 是首个在多项基准测试中性能与 OpenAI DeepResearch 持平的完全开源网络代理(Web Agent)。它在多个复杂信息检索和学术推理任务中,系统性地超越了所有现有的闭源和开源模型。

  • 学术推理 (HLE): 32.9 分
  • 复杂信息检索 (BrowseComp): 43.4 分
  • 中文信息检索 (BrowseComp-ZH): 46.7 分
  • 用户中心基准 (xbench-DeepSearch): 75 分

除了模型本身,该项目还分享了一套完整的、经过实战检验的高级代理创建方法,涵盖了从数据合成、模型训练到推理优化的全过程。

核心方法:全合成数据驱动

整个训练流程,包括持续预训练(CPT)、监督微调(SFT)和强化学习(RL),都由一套创新的数据合成方案驱动。

持续预训练数据

为了给模型打下坚实的代理能力基础,团队提出了 AgentFounder 系统,用于大规模合成数据。

  • 数据重组与问题构建: 从文档、网页、知识图谱等多种来源收集数据,重组为以实体为中心的知识库,并基于此生成多样化的问题与答案。
  • 行为合成: 基于问题和历史轨迹,大规模生成模型的推理与行为数据,让模型在离线环境中探索潜在的决策空间,无需调用商业 API。

后训练数据

通过一个完全自动化的流程,无需人工干预即可构建超越人类水平的高质量数据集

  • 提升问题难度: 通过在知识图谱上进行随机游走,生成初始问答对。然后,故意模糊或隐藏问题中的信息,系统性地增加问题的复杂性和不确定性。
  • 形式化建模: 采用基于集合论的数学模型来定义信息检索问题,这使得难度的控制更加精确,并能有效验证合成数据的正确性。
  • 自动化数据引擎: 开发了一个自动化引擎,用于生成博士级别的研究问题。该引擎通过“迭代式复杂性升级”的循环,让问题变得越来越深入和抽象。

推理模式:释放代理的全部潜力

模型支持多种推理模式,以适应不同复杂度的任务。

原生 ReAct 模式

无需任何复杂的提示工程,模型就能在经典的 “思考-行动-观察” 循环中表现出色。凭借 128K 的长上下文窗口,模型可以处理大量的交互轮次。

这种对通用方法的偏爱,深受“苦涩的教训”(The Bitter Lesson)启发,即利用可扩展计算的通用方法,最终会胜过依赖复杂人类工程知识的方法。

重型模式 (Heavy Mode)

针对极其复杂的长期研究任务,团队开发了基于 IterResearch 框架的“重型模式”。

  • 解决“认知窒息”: 传统代理会将所有信息堆积在不断增长的上下文中,导致信息过载。IterResearch 将任务分解为一系列“研究回合”。
  • 重建工作区: 在每个回合开始时,代理只保留上一轮最关键的输出,构建一个精简的工作区。这使得代理能始终保持清晰的“认知焦点”。
  • 并行探索: 基于此,团队还提出了“研究-综合”框架,让多个代理并行探索问题的不同方面,最后由一个综合代理汇总所有发现,得出更全面的答案。

端到端的代理训练流程

训练此类代理模型需要一个全新的范式,它打通了从预训练到强化学习的完整链路:代理持续预训练 (Agentic CPT) → 代理监督微调 (Agentic SFT) → 代理强化学习 (Agentic RL)

在线强化学习 (RL)

强化学习是让代理行为与高层目标对齐的关键。

  • 算法创新: 采用了定制的在线策略优化算法(GRPO),确保学习信号始终与模型的当前能力相关。同时,通过保守地筛选负面样本,避免了训练后期可能出现的“格式崩溃”问题。
  • 基础设施保障: 训练的成功不仅依赖算法,更关键的是数据和环境的稳定性。
    • 合成训练环境: 使用离线维基百科数据库和自定义工具套件,创建了一个低成本、高速且可控的模拟环境。
    • 稳定高效的工具沙盒: 开发了统一的沙盒来处理工具调用,通过缓存、重试和备用方案确保工具使用的可靠性。
    • 自动化数据管理: 建立了一个全自动的数据合成与过滤管道,根据训练动态实时优化数据,确保训练稳定并带来显著性能提升。

我们认为,在代理强化学习的成功中,算法固然重要,但数据和训练环境的稳定性可能是更关键的决定因素。

实际应用

通义 DeepResearch 已经应用于阿里巴巴内外的实际产品中。

  • 高德地图智能副驾“小高”: 能够理解并执行复杂的旅行规划指令,如“规划一个包含特定景点和允许携带宠物的酒店的多日自驾游”,并自主生成详细的个性化行程。
  • 通义法睿(法律研究代理): 能够像初级律师一样,自主执行多步骤的法律研究任务,包括检索案例、交叉引用法规并综合分析,所有结论都基于可验证的司法来源。

局限与未来方向

  • 上下文长度: 当前的 128k 上下文窗口对于最复杂的任务仍显不足。
  • 模型规模验证: 训练方法在远超 30B 规模的模型上的可扩展性有待验证。
  • 强化学习效率: 计划研究部分 rollout 等技术来提高强化学习框架的效率,但这需要解决离线训练中的分布偏移等挑战。