Synth Daily

OpenAI全力打造万能AI的幕后故事

OpenAI 通过结合大型语言模型(LLM)、强化学习(RL)和一种名为“测试时计算”的技术,在 AI 推理能力上取得了突破。这一进展最初源于一个旨在解决高中数学竞赛问题的内部项目,现已成为公司开发通用 AI 代理(能像人类一样在计算机上执行任务的 AI)的核心。尽管面临模型“幻觉”和激烈市场竞争等挑战,但这项技术被视为实现公司构建万能 AI 愿景的关键。

从解数学题到AI推理

OpenAI 的一个名为 MathGen 的团队最初致力于提升模型在数学推理方面的能力,因为早期的模型在这方面表现不佳。这项工作后来被证明至关重要,为公司开发行业领先的 AI 推理模型奠定了基础。

  • 意外的起点: 当 ChatGPT 意外走红时,MathGen 团队正在安静地训练模型解决复杂的数学题。
  • 关键的成功: OpenAI 的一个模型最终在国际数学奥林匹克竞赛中获得金牌,证明了其在推理能力上的显著提升。
  • 最终目标: OpenAI 相信,这种在数学上得到验证的推理能力可以推广到其他领域,并最终驱动公司一直梦想构建的通用 AI 代理

“最终,你只需告诉计算机你需要什么,它就会为你完成所有这些任务,” OpenAI 首席执行官 Sam Altman 曾表示。“这些能力在 AI 领域通常被称为代理。”

核心技术的突破

OpenAI 的推理模型突破并非源于单一创新,而是巧妙地结合了多种现有技术。

  • 强化学习(RL)的复兴: RL 通过在模拟环境中对模型的选择给予正确或错误的反馈来训练模型。虽然这项技术已存在数十年,但 OpenAI 将其与现代大模型结合,发挥了新的作用。
  • 关键技术组合: 2023年,OpenAI 通过结合以下三种技术取得了突破性进展,最初的项目代号为 “Q*” 和 “Strawberry”:
    1. 大型语言模型 (LLM): 提供了强大的文本处理和知识基础。
    2. 强化学习 (RL): 用于优化决策过程。
    3. 测试时计算: 给予模型更多的时间和计算能力来规划、验证步骤并解决问题,而不是立即给出答案。

这种组合催生了“思维链”(Chain-of-Thought)等新方法,显著提高了 AI 在处理未见过的问题时的表现。

“我能看到模型开始推理了,”一位研究员描述道。“它会发现错误并回溯,它会感到沮丧。这真的感觉像在阅读一个人的思想。”

重新定义“推理”

“推理”这个词在 AI 领域引发了讨论。OpenAI 的研究人员倾向于从功能和结果的角度来定义它,而不是纠结于其过程是否与人脑完全相同。

  • 务实的定义: 研究人员认为,如果模型能够解决难题,那么它就在进行一种实现该目标所必需的、近似于推理的过程。
  • 结果重于过程: 重点在于 AI 工具是否强大和有用,而不是如何命名其内部工作机制。

AI 研究员 Nathan Lambert 将 AI 推理比作飞机。飞机受到鸟类飞行的启发,但其工作原理完全不同。这并不妨碍飞机实现飞行这一同样有用的结果。AI 推理也是如此,它模仿人类推理的结果,但通过不同的机制实现。

下一个前沿:主观任务与激烈竞争

尽管 AI 代理在编码等定义明确的领域表现出色,但在处理复杂的、主观性强的日常任务(如在线购物或规划行程)时仍然面临挑战。

  • 数据问题: 研究人员认为,当前代理在主观任务上的局限性本质上是一个数据问题。如何训练模型处理那些没有明确正确答案的任务,是当前的研究重点。
  • 新的训练技术: OpenAI 正在开发新的通用强化学习技术,以训练模型掌握那些不易验证的技能。例如,通过让多个 AI 代理同时探索不同的解题路径,然后选出最佳方案。
  • 未来的愿景: OpenAI 的目标是开发出能直观理解用户意图的 AI 代理,无需用户进行繁琐的设置。它能自动判断何时调用何种工具,以及需要花多少时间进行“思考”。

然而,OpenAI 并非孤军奋战。公司正面临来自谷歌、Anthropic、xAI 和 Meta 等对手的激烈竞争。问题不再仅仅是 OpenAI 能否实现其宏伟的代理愿景,而是它能否在竞争对手之前做到这一点。