Synth Daily

2025年12月的AI进展思考

当前的强化学习(RL)和预训练模型在实现通用人工智能(AGI)方面存在显著局限。现有方法严重依赖于对特定技能进行大规模的预先训练,缺乏人类那种在实际工作中即时学习和泛化的能力。因此,这些模型还远不能广泛替代知识工作者。真正的AGI必须具备持续学习的能力,能在工作中自主适应并积累经验。这一突破可能还需5到10年,其发展将是一个渐进且充满竞争的过程。

现有方法的根本矛盾

目前,各大AI实验室正试图通过“中间训练”将大量技能“烘焙”到模型中。整个行业都在为模型构建强化学习环境,教它们如何使用Excel或浏览网页。

这里存在一个核心矛盾:

  • 要么,这些模型很快就能在工作中自我导向地学习,那么所有这些预先“烘焙”技能的努力都将变得毫无意义
  • 要么,它们无法做到这一点,这意味着AGI并不会很快到来

人类不需要经过一个特殊的训练阶段来预演他们未来可能用到的所有软件。这种依赖大量专家来提供高质量训练数据的做法,暴露了当前模型缺乏AGI所必需的核心学习能力。

“在某种程度上,这就像是专家系统时代的大规模重演……我们付钱给专家,不是让他们直接将思维编写成代码,而是让他们提供大量推理过程的范例,然后我们通过行为克隆将这些范例提炼到模型中。这表明它们仍然缺乏真正AGI必须具备的关键学习核心。”

这种矛盾在机器人领域尤其明显。如果拥有一个像人类一样的学习器,机器人技术的大部分问题都将迎刃而解。但现实是,我们必须到成千上万个不同的家庭和工厂中去,让机器人学习如何捡起盘子或折叠衣物。

人类工作的价值:无需“繁琐的训练”

一位生物学家提到,她工作的一部分是观察载玻片,判断上面的一个点究竟是巨噬细胞还是仅仅是看起来像。AI研究人员立刻回应:“图像分类是深度学习的经典问题——我们很容易为此进行训练。”

这个对话揭示了一个关键分歧。人类工作者的价值恰恰在于,我们不需要为他们工作的每一个微小部分都建立繁琐的训练流程。你真正需要的是一个能够从工作中获得语义反馈并立即泛化的AI,就像人类一样。

  • 日常工作的复杂性: 每天,人们都需要处理上百件需要判断力、情境意识和后天习得技能的任务。
  • 任务的动态变化: 这些任务不仅因人而异,即使是同一个人,每天面对的任务也不同。
  • “烘焙”技能的局限: 不可能通过预设一组技能来自动化哪怕一个单一的工作岗位,更不用说所有工作了。

对经济影响的误判

有人认为,AI之所以尚未在各公司广泛部署并创造巨大价值,是因为技术普及需要时间。这种说法更像是一种借口,它掩盖了这些模型根本不具备实现广泛经济价值所需的能力这一事实。

“新技术融入经济需要很长时间?那么问问自己:高技能、经验丰富的移民是如何立即融入经济的?一旦你想通了这个问题,请注意,AGI也应该能做到这些。”

如果模型真的像“服务器上的人类”,它们会以惊人的速度普及。原因如下:

  • 快速上手: 它们可以在几分钟内读完你公司所有的内部文档,并立即掌握其他AI“同事”的技能。
  • 无需筛选: 公司招聘时面临“柠檬市场”的困境,难以预先判断候选人优劣。而部署一个经过验证的AGI模型则没有这种风险。

目前,AI公司的收入与知识工作者每年数十万亿美元的总薪酬相差四个数量级,这清楚地表明,模型的能力远未达到人类知识工作者的水平

移动“球门”是合理的

批评者常指责AI怀疑论者在不断移动评判标准。虽然AI在过去十年取得了巨大进步,但一定程度的“移动球门”是合理的。

如果我们在2020年看到今天的模型,可能会确信它能自动化一半的知识工作。然而,我们不断解决那些曾经被认为是通往AGI的最后障碍(如通用理解、少样本学习、推理),但AGI(定义为能完全自动化95%知识工作的能力)仍然没有实现。

理性的反应是:“哦,原来智能和劳动比我之前想的要复杂得多。” 事实是,尽管模型在“令人印象深刻”方面的进步速度很快,但在“实用性”方面的进步速度却很慢

未来的驱动力:广泛部署的“持续学习”

未来AI能力提升的主要驱动力将是持续学习——就像人类主要通过在相关领域的经验来提升自己一样。

未来的景象可能是:

  1. 分散学习: 大量持续学习的智能体在各行各业工作并创造价值。
  2. 知识汇集: 它们将所有学到的经验带回“蜂巢思维”模型。
  3. 批量提炼: 主模型对所有智能体的数据进行批量提炼,实现整体进化。

然而,“解决”持续学习不会是一蹴而就的成就。它会像“情境学习”一样逐步发展。GPT-3展示了情境学习的潜力,但我们至今仍在不断完善它。同样,人类水平的持续学习可能还需要5到10年的渐进式发展。

因此,我们不太可能看到某个模型因为率先破解持续学习而获得压倒性优势。更可能的情况是,一个实验室取得初步进展,其他实验室迅速复制并改进,竞争将保持激烈。