OpenAI 通过结合大型语言模型(LLM)、强化学习(RL)和一种名为“测试时计算”的技术,在 AI 推理能力上取得了突破。这一进展最初源于一个旨在解决高中数学竞赛问题的内部项目,现已成为公司开发通用 AI 代理(能像人类一样在计算机上执行任务的 AI)的核心。尽管面临模型“幻觉”和激烈市场竞争等挑战,但这项技术被视为实现公司构建万能 AI 愿景的关键。
从解数学题到AI推理
OpenAI 的一个名为 MathGen 的团队最初致力于提升模型在数学推理方面的能力,因为早期的模型在这方面表现不佳。这项工作后来被证明至关重要,为公司开发行业领先的 AI 推理模型奠定了基础。
- 意外的起点: 当 ChatGPT 意外走红时,MathGen 团队正在安静地训练模型解决复杂的数学题。
- 关键的成功: OpenAI 的一个模型最终在国际数学奥林匹克竞赛中获得金牌,证明了其在推理能力上的显著提升。
- 最终目标: OpenAI 相信,这种在数学上得到验证的推理能力可以推广到其他领域,并最终驱动公司一直梦想构建的通用 AI 代理。
“最终,你只需告诉计算机你需要什么,它就会为你完成所有这些任务,” OpenAI 首席执行官 Sam Altman 曾表示。“这些能力在 AI 领域通常被称为代理。”
核心技术的突破
OpenAI 的推理模型突破并非源于单一创新,而是巧妙地结合了多种现有技术。
- 强化学习(RL)的复兴: RL 通过在模拟环境中对模型的选择给予正确或错误的反馈来训练模型。虽然这项技术已存在数十年,但 OpenAI 将其与现代大模型结合,发挥了新的作用。
- 关键技术组合: 2023年,OpenAI 通过结合以下三种技术取得了突破性进展,最初的项目代号为 “Q*” 和 “Strawberry”:
- 大型语言模型 (LLM): 提供了强大的文本处理和知识基础。
- 强化学习 (RL): 用于优化决策过程。
- 测试时计算: 给予模型更多的时间和计算能力来规划、验证步骤并解决问题,而不是立即给出答案。
这种组合催生了“思维链”(Chain-of-Thought)等新方法,显著提高了 AI 在处理未见过的问题时的表现。
“我能看到模型开始推理了,”一位研究员描述道。“它会发现错误并回溯,它会感到沮丧。这真的感觉像在阅读一个人的思想。”
重新定义“推理”
“推理”这个词在 AI 领域引发了讨论。OpenAI 的研究人员倾向于从功能和结果的角度来定义它,而不是纠结于其过程是否与人脑完全相同。
- 务实的定义: 研究人员认为,如果模型能够解决难题,那么它就在进行一种实现该目标所必需的、近似于推理的过程。
- 结果重于过程: 重点在于 AI 工具是否强大和有用,而不是如何命名其内部工作机制。
AI 研究员 Nathan Lambert 将 AI 推理比作飞机。飞机受到鸟类飞行的启发,但其工作原理完全不同。这并不妨碍飞机实现飞行这一同样有用的结果。AI 推理也是如此,它模仿人类推理的结果,但通过不同的机制实现。
下一个前沿:主观任务与激烈竞争
尽管 AI 代理在编码等定义明确的领域表现出色,但在处理复杂的、主观性强的日常任务(如在线购物或规划行程)时仍然面临挑战。
- 数据问题: 研究人员认为,当前代理在主观任务上的局限性本质上是一个数据问题。如何训练模型处理那些没有明确正确答案的任务,是当前的研究重点。
- 新的训练技术: OpenAI 正在开发新的通用强化学习技术,以训练模型掌握那些不易验证的技能。例如,通过让多个 AI 代理同时探索不同的解题路径,然后选出最佳方案。
- 未来的愿景: OpenAI 的目标是开发出能直观理解用户意图的 AI 代理,无需用户进行繁琐的设置。它能自动判断何时调用何种工具,以及需要花多少时间进行“思考”。
然而,OpenAI 并非孤军奋战。公司正面临来自谷歌、Anthropic、xAI 和 Meta 等对手的激烈竞争。问题不再仅仅是 OpenAI 能否实现其宏伟的代理愿景,而是它能否在竞争对手之前做到这一点。