OpenAI全力打造万能AI的幕后故事

OpenAI 通过结合大型语言模型（LLM）、强化学习（RL）和一种名为“测试时计算”的技术，在 AI 推理能力上取得了突破。这一进展最初源于一个旨在解决高中数学竞赛问题的内部项目，现已成为公司开发通用 AI 代理（能像人类一样在计算机上执行任务的 AI）的核心。尽管面临模型“幻觉”和激烈市场竞争等挑战，但这项技术被视为实现公司构建万能 AI 愿景的关键。

从解数学题到AI推理

OpenAI 的一个名为 MathGen 的团队最初致力于提升模型在数学推理方面的能力，因为早期的模型在这方面表现不佳。这项工作后来被证明至关重要，为公司开发行业领先的 AI 推理模型奠定了基础。

意外的起点： 当 ChatGPT 意外走红时，MathGen 团队正在安静地训练模型解决复杂的数学题。
关键的成功： OpenAI 的一个模型最终在国际数学奥林匹克竞赛中获得金牌，证明了其在推理能力上的显著提升。
最终目标： OpenAI 相信，这种在数学上得到验证的推理能力可以推广到其他领域，并最终驱动公司一直梦想构建的通用 AI 代理。

“最终，你只需告诉计算机你需要什么，它就会为你完成所有这些任务，” OpenAI 首席执行官 Sam Altman 曾表示。“这些能力在 AI 领域通常被称为代理。”

核心技术的突破

OpenAI 的推理模型突破并非源于单一创新，而是巧妙地结合了多种现有技术。

强化学习（RL）的复兴： RL 通过在模拟环境中对模型的选择给予正确或错误的反馈来训练模型。虽然这项技术已存在数十年，但 OpenAI 将其与现代大模型结合，发挥了新的作用。
关键技术组合： 2023年，OpenAI 通过结合以下三种技术取得了突破性进展，最初的项目代号为 “Q*” 和 “Strawberry”：
1. 大型语言模型 (LLM)： 提供了强大的文本处理和知识基础。
2. 强化学习 (RL)： 用于优化决策过程。
3. 测试时计算： 给予模型更多的时间和计算能力来规划、验证步骤并解决问题，而不是立即给出答案。

这种组合催生了“思维链”（Chain-of-Thought）等新方法，显著提高了 AI 在处理未见过的问题时的表现。

“我能看到模型开始推理了，”一位研究员描述道。“它会发现错误并回溯，它会感到沮丧。这真的感觉像在阅读一个人的思想。”

重新定义“推理”

“推理”这个词在 AI 领域引发了讨论。OpenAI 的研究人员倾向于从功能和结果的角度来定义它，而不是纠结于其过程是否与人脑完全相同。

务实的定义： 研究人员认为，如果模型能够解决难题，那么它就在进行一种实现该目标所必需的、近似于推理的过程。
结果重于过程： 重点在于 AI 工具是否强大和有用，而不是如何命名其内部工作机制。

AI 研究员 Nathan Lambert 将 AI 推理比作飞机。飞机受到鸟类飞行的启发，但其工作原理完全不同。这并不妨碍飞机实现飞行这一同样有用的结果。AI 推理也是如此，它模仿人类推理的结果，但通过不同的机制实现。

下一个前沿：主观任务与激烈竞争

尽管 AI 代理在编码等定义明确的领域表现出色，但在处理复杂的、主观性强的日常任务（如在线购物或规划行程）时仍然面临挑战。

数据问题： 研究人员认为，当前代理在主观任务上的局限性本质上是一个数据问题。如何训练模型处理那些没有明确正确答案的任务，是当前的研究重点。
新的训练技术： OpenAI 正在开发新的通用强化学习技术，以训练模型掌握那些不易验证的技能。例如，通过让多个 AI 代理同时探索不同的解题路径，然后选出最佳方案。
未来的愿景： OpenAI 的目标是开发出能直观理解用户意图的 AI 代理，无需用户进行繁琐的设置。它能自动判断何时调用何种工具，以及需要花多少时间进行“思考”。

然而，OpenAI 并非孤军奋战。公司正面临来自谷歌、Anthropic、xAI 和 Meta 等对手的激烈竞争。问题不再仅仅是 OpenAI 能否实现其宏伟的代理愿景，而是它能否在竞争对手之前做到这一点。