Synth Daily

下一个重大突破将是 AI 在实践中边干边学

目前,AI 研究领域的主流观点认为,通过在数百万个可验证、可重放的环境中进行强化学习(RL),就能训练出通用人工智能(AGI)。然而,这一路径存在根本缺陷,因为现实世界中的许多重要任务既不可简单验证,也无法在模拟器中大规模并行“演练”。真正的突破可能来自两条新路径:一是让 AI 将部署中获得的宝贵经验通过“在线自蒸馏”等方式永久性地“写回”其核心权重;二是通过“梦境”式的自我模拟,让 AI 为特定任务进行大量练习。未来的 AI 可能会先在模拟任务中变得足够强大,然后被部署到真实世界,通过长期协作持续吸收经验,最终实现能力的不断迭代和扩展。

当前AI训练的局限性

目前,各大 AI 实验室的核心赌注是:通过在数以千计的多样化强化学习环境中完成数百万个可验证的任务,AI 将能掌握通用的问题解决能力,从而实现 AGI。乐观者相信,只要投入足够多的算力,当前学习范式的所有根本性缺陷(如数据效率低下)都可以被强行克服,就像大语言模型用算力淹没了自然语言处理领域的难题一样。

然而,这一愿景忽略了一个关键问题:

现实世界中,许多任务既无法被简单验证,也无法在数据中心内被无限次地重放和模拟。

例如,我们如何训练一个 AI 来创业、打赢官司或赢得选举?这些任务的反馈周期可能长达数月甚至数年,并且无法通过在虚拟环境中并行测试数千次来快速迭代。这些任务的经验数据具有稀缺、非结构化和独特的特点,对模型的学习效率提出了极高的要求。

“可重复训练性”:一个被忽视的关键

一个任务要能被 AI 高效学习,仅仅“可验证”是不够的,它还必须是“可重复训练的”(Grindable)。这意味着你可以在一个确定性的、可重放的模拟器中运行大量的并行实验。

  • 编程任务:这是一个很好的例子。你可以创建一个包含特定软件库的环境,然后让一千个并行的 AI 代理同时尝试解决同一个问题。
  • 真实世界应用:这在现实世界中很难实现。你不能让一千个机器人同时在亚马逊网站上尝试同一个下单流程,否则它们很快就会被封禁。

虽然理论上可以为所有常用应用制作克隆品,但这在目前看来既耗费人力又难以扩展。因此,计算机应用操作的进展比编程和数学等领域要慢得多。

除非你能为一个领域构建一个可高度重放的训练目标,否则模型将难以取得进展。

将实际经验写回模型

当前的模型学习方式存在巨大的浪费。当模型被部署后,它在与用户互动中会接触到最有价值的信息,例如特定组织的工作流程、真实世界中的常见错误等。然而,这些宝贵的经验大多随着会话结束而消失了。

实验室大约 30-50% 的算力用于推理,而这些算力目前并未对改进模型本身产生任何作用。这是一种巨大的浪费。

虽然通过扩展上下文窗口(Context Window),模型可以在单个会话中“记住”更多信息,但这并不能从根本上解决问题。人类学习并非无限堆积记忆,而是通过压缩和归纳,将洞见刻入直觉。为了让 AI 实现真正的持续学习,我们必须找到一种方法,将从稀缺的“在职”数据中学到的东西写回模型的核心权重中。

这正是 样本效率持续学习 问题的交汇点。模型需要在极少量的数据中学习,并将这些学习成果固化下来。

两种实现持续学习的路径

要解决这个问题,有两条值得探索的路径:

  • 1. 在线自蒸馏 (On-Policy Self-Distillation, OPSD) 这是一种让基础模型向一个更有经验的“教师”模型学习的方法。这里的“教师”就是那个在特定会话中积累了丰富上下文信息的模型。这种方法的好处在于:

    • 无需外部奖励信号:它不依赖于一个可验证的最终结果,只需要模型在会话中能学到正确的知识。
    • 提供更密集的监督:它不是通过单一的奖励来反向传播,而是通过对比“学生”和“教师”在每个决策点的概率差异来进行训练。
    • 精确更新:与监督微调不同,它只会提取和巩固那些对完成任务真正必要的知识,避免遗忘模型原有的通用能力。其核心目标是 将模型在单个会告中学到的知识蒸馏回权重本身
  • 2. 梦境 (Dreaming) 这是一个更具推测性的想法。如果 AI 能够构建一个足够好的现实世界模拟器,它就可以在这个模拟器中进行大量练习,尝试新的策略并巩固有效的方法。这将成为继预训练、强化学习和推理计算之后的 第四个扩展轴心。AI 可以消耗大量算力来为特定用户的特定任务构建和训练一个“视频游戏”版本,从而在投入实际使用前进行充分的“排练”。

展望2027:一个持续进化的AI

到2027年,AI 的发展模式可能会发生根本性转变:

  1. 首先,通过大规模的 RLVR 训练,AI 变得“足够胜任”,可以被部署到真实世界中处理一些超出其训练范围的任务。
  2. 部署后,AI 与人类进行为期数天甚至数周的长期协作,在解决实际问题的过程中积累宝贵经验。
  3. 在项目结束时,通过 OPSD 或“梦境”等技术,AI 将这段时间学到的所有知识和技能 蒸馏并固化到其核心权重中
  4. 通过这个循环,AI 的能力范围不断扩展,从一个领域自然延伸到相邻领域。

最终,AI 提升的主要方式将不再是发布前的训练,而是通过在全球范围内的广泛部署和与无数用户的互动来持续积累经验。

每一次你与 AI 互动,它都会变得更聪明。这不仅因为它从你之前的会话中学习,也因为它从与世界上所有其他用户的互动中学习。