Synth Daily

AI 模型开始学会向自己提问

一个名为“绝对零度推理器”(AZR)的新 AI 系统,通过让大语言模型自我生成编程问题、解决问题并验证结果,实现了类似人类的自主学习。这种“自我对弈”的方法不仅显著提升了开源模型的编程与推理能力,甚至超越了部分依赖人工数据训练的模型。研究人员认为,这种模式有望让 AI 超越人类教学的限制,实现更高级的智能,并可能成为在数据日益稀缺的情况下推动 AI 发展的新途径。

从模仿者到提问者

传统的人工智能模型本质上是模仿者,它们通过学习人类创造的范例或解决人类设定的问题来进行训练。然而,一种新的方法正在探索让 AI 以更接近人类的方式学习。

AI 或许能够通过构思有趣的问题并尝试找到正确答案,从而实现真正的学习。

清华大学、北京通用人工智能研究院及宾夕法尼亚州立大学合作开发的 AZR 系统展示了这一可能性。其核心学习流程分为三个步骤:

  • 生成问题: 首先,利用一个大语言模型来生成具有挑战性但可解的 Python 编程问题。
  • 解决问题: 接着,使用同一个模型来解决这些自己提出的问题。
  • 验证与优化: 最后,通过运行代码来检验答案的成败,并将这些反馈信号用于优化原始模型,使其在提出和解决问题两方面的能力都得到提升。

像人类一样超越老师

这种学习方式类似于人类超越模仿和死记硬背的阶段。研究人员将其比作人类的成长过程。

“一开始你模仿你的父母,听从你的老师,但最终你必须提出自己的问题。这样你才能超越当初教导你的人。”

这种有时被称为 “自我对弈”(self-play) 的学习理念可以追溯到多年前,并曾被多位 AI 先驱探索过。AZR 系统的一个亮点在于,模型的出题和解题能力会随着自身能力的增强而同步提升,形成一个良性循环。

成果与未来展望

实验结果表明,AZR 方法显著提升了开源语言模型 Qwen 的编程和推理能力。更引人注目的是,该模型甚至超越了一些经过人类精心筛选数据训练的模型。

尽管目前该系统主要适用于那些可以被轻松验证答案的领域(如数学和编程),但它的潜力巨大。

  • 扩展应用: 未来可能被用于更复杂的 AI 代理任务,例如自主浏览网页或完成办公杂务。
  • 通往超级智能: 从理论上讲,这种方法允许模型的能力超越人类教学的范畴,被认为是“通往超级智能的一种途径”。

正在兴起的行业趋势

AZR 的思路正开始在一些大型 AI 实验室中获得关注。其他类似的项目,如 Salesforce 的 Agent0 和 Meta 等机构的研究,也都在利用“自我对弈”来提升 AI 在软件工程等领域的通用推理能力。

随着传统数据源变得日益稀缺和昂贵,寻找新的 AI 学习方式已成为科技行业的重要议题。像 AZR 这样的项目,预示着未来的 AI 系统将不再仅仅是模仿者,而是更接近人类的思考者。