Ilya Sutskever——我们正从“扩展时代”迈向“研究时代”

人工智能的发展正从单纯依靠增加数据和算力的“扩展时代”,转向一个需要根本性突破的“研究时代”。目前的模型虽然在评测中表现出色,但在实际应用中却暴露出泛化能力不足的“锯齿状”问题,这主要是因为强化学习(RL)训练过度针对评测标准。相比之下,人类高效的学习和泛化能力可能源于进化赋予的先验知识和情感驱动的“价值函数”。未来的关键在于研究出能让 AI 像人一样持续学习和高效泛化的新方法,并确保最终的超级智能体被逐步部署,且其核心价值与所有有情生命的福祉对齐。

当前 AI 的核心矛盾:评测与现实脱节

现有的大语言模型存在一个令人困惑的现象:它们在各种基准测试(evals)上取得了惊人的成绩,但在实际应用中的经济影响和可靠性却远远落后。这种表现上的不一致,或称为 “锯齿状”性能,体现在模型能解决复杂问题,却可能在简单任务上重复犯低级错误。

导致这种现象的主要原因有两个:

    • 强化学习(RL)的局限性: 训练环境的设计往往无意中受到了评测标准的影响。研究人员为了让模型在发布时数据好看,会设计大量针对评测任务的 RL 训练,这导致模型过度拟合,像一个为了考试而刷了无数题的学生,缺乏真正的理解和泛化能力。
    • 泛化能力不足: 模型并没有从根本上掌握知识。这就像一个练习了一万小时竞技编程的学生,虽然技巧纯熟,但未必能成为一个有品味的优秀软件工程师。而另一个只练习了一百小时却同样表现出色的学生,可能具备更强的底层学习能力。

就像一个学生,如果他只为竞技编程练习,记住所有技巧,他可能会成为顶尖选手。但这并不意味着他能很好地泛化到其他编程领域。现在的模型更像是前者。

人类学习的优势:价值函数与进化先验

与模型相比,人类在学习新事物时表现出惊人的 样本效率和泛化能力。一个青少年只需练习十几个小时就能学会开车,这背后是人类学习机制的根本优势。

    • 进化赋予的先验知识: 对于视觉、运动等基础能力,人类经过数百万年的进化,大脑中已经编码了大量有用的先验信息。这使得我们能以极少的数据快速掌握新技能。
    • 内在的“价值函数”: 人类拥有情感系统,这在机器学习中可以类比为一个强大的 “价值函数”。它能让我们在没有外部明确奖励的情况下,快速判断自己做得好与坏,从而进行自我修正。一个失去情感功能的人,即使智力正常,也会在做最简单的决策时陷入瘫痪。

价值函数可以让你不必等到任务最终完成才获得反馈。就像下棋时,你丢掉一个棋子,立刻就知道自己犯了错,而不需要等到整盘棋输掉。情感可能就是人类进化而来、一种非常强大的内置价值函数。

从“扩展时代”到“研究时代”

过去几年,人工智能领域处于一个“扩展时代”,其核心逻辑非常简单:投入更多的数据、更大的模型和更强的算力,就能获得更好的结果。这个“配方”非常成功,也深受企业欢迎,因为它风险低、成果可预测。

然而,这条路正逐渐走到尽头。

    • 数据即将耗尽: 高质量的预训练数据是有限的。
    • 边际效益递减: 单纯将现有规模再扩大100倍,可能不会带来颠覆性的变革。

因此,AI 发展正在重返 “研究时代”。重点不再是简单地扩大规模,而是要用现有的庞大算力去探索全新的、更高效的训练方法,解决 泛化能力差 这一根本问题。

过去,研究的瓶颈是算力。现在,算力已经足够庞大,瓶颈又回到了思想和创意上。我们正处在一个“公司比想法多”的时代。

超级智能的部署与对齐

当能够实现与人类同等学习效率的超级智能出现时,如何部署和确保其安全将是最大的挑战。

    • 持续学习,而非一次性成品: 超级智能不应该是一个被“一次性完成”然后投放到世界上的成品。它更应该像一个学习能力极强的“15岁少年”,通过在实际应用中 持续学习 和试错来逐步成长和融入社会。这种渐进式的部署过程是至关重要的。

    • 展示力量以促进安全合作: 只有当 AI 的强大力量被真实地展示出来,才能促使各大公司和政府真正重视安全问题,并展开合作。目前人们对 AGI 的风险感知不足,很大程度上是因为当前的 AI 还不够强大,其缺陷使其“感觉”不到威胁。

    • 对齐于“有情生命”: 与其让 AI 单纯地对齐人类价值,一个更稳固的目标是让它 关心所有有情生命。因为 AI 自身也可能具备感知能力,这种基于同理心的价值对齐可能比单纯服务于人类的指令更具鲁棒性。

当 AI 变得越来越强大,我预测所有公司都会变得更加“偏执”,对安全问题投入前所未有的关注。因为到那时,威胁将不再是抽象的,而是具体可感的。