人工智能近期的进步主要源于更多、更好的数据,而非学习效率的提升。当前模型在语言、机器人和驾驶等任务上的样本效率远低于人类,单靠扩大模型规模难以弥补这一差距。尽管对于自动化常见的白领工作而言,这种低效率或许可以被海量应用摊薄成本,但关键问题在于,缺乏人类级别样本效率的 AI 是否能继续推动自身研究的进步,并解决复杂的、超出其训练数据范围的任务。
数据:AI进步的真正引擎
当前 AI 的能力提升,主要不是因为算法在样本效率(即学习所需的数据量)上取得了突破,而是我们极大地扩展和优化了训练数据的质量与范围。
- 强化学习 (RL) 的本质: RL 可以被看作一种合成数据生成方法。它通过大量计算来寻找“好的”数据,然后训练模型来复现这些正确的执行路径。
- 对人类专家数据的依赖: 这个过程需要海量的、针对特定领域的人类专家数据作为基础。例如,需要法律专家编写模拟的并购文件,或管理顾问撰写市场研究模板。
- 数据的规模与特异性: 每一项技能的训练都可能需要数百名人类专家生成示例、编写评估标准并解释其思考过程。这催生了年收入数十亿美元的数据标注产业。
我们正在构建一个弗兰肯斯坦式的怪物,由十亿个精心构建的案例嫁接而成。
开源模型之所以能快速追赶上最先进的闭源模型,也证明了数据是进步的真正驱动力。数据可以从公开的 API 中轻易“蒸馏”出来,而模型架构或训练技巧等核心技术若真是关键,追赶的难度会大得多。
人类与AI的样本效率鸿沟
将 AI 模型所需的数据量与人类一生接触的数据量进行对比,可以直观地看到两者在学习效率上的巨大差异。
- 语言学习: 一个普通人从出生到成年大约接触 2 亿个语言符号(token)。而前沿模型则在 10 万亿到 100 万亿个 token 的数据上进行训练,差异接近一百万倍。
- 机器人操作: 人类可以在几小时内学会远程操作一个机器人手臂。而 AI 即使拥有数百万小时的演示数据,也难以执行复杂的、开放式的任务,这也是机器人产业未能全面爆发的原因。
- 驾驶: 一个青少年大约需要 20 小时的练习就能学会开车。相比之下,自动驾驶模型需要的数据量要高出三到四个数量级。
对常见反驳的回应
对于上述比较,存在一些常见的反驳观点,但它们并不能完全解释这种效率差距。
“进化是人类的预训练”:
- 反驳: 人类基因组只有大约 3GB,不足以存储前沿模型那样的海量参数。进化更像是找到了正确的超参数和损失函数,而参数训练仍然在个体的生命周期内完成。
“人类接触了海量的多模态感官数据”:
- 反驳: 失去视觉或听觉的人虽然缺少了相应的感觉能力,但仍然拥有与常人无异的通用智能。这表明额外的感官数据并非人类智慧的关键。
“扩大模型规模能提升样本效率”:
- 反驳: 根据目前的缩放定律 (Scaling Laws),即使将模型参数增加到无穷大,其所需的数据量也只能减少约 10 倍。这远远无法弥补与人类之间成千上万倍的效率差距,暗示了人类与当前 AI 模型遵循着完全不同的缩放曲线。
样本效率真的重要吗?
既然 AI 在很多任务上已经表现出色,那么这种低下的样本效率是否还构成问题?
答案取决于目标。对于自动化白领工作和自动化 AI 研究这两个核心目标,情况有所不同。
- 对于自动化白领工作: 核心逻辑是,大部分常见的办公任务(如软件工程师、分析师的工作)可以通过 SFT 和 RL 被纳入训练数据中。虽然训练 AI 的效率远低于训练人类,但 AI 的学习成果可以被复制并摊薄到数十亿次使用中,使得这种低效率在商业上变得可以接受。
- 真正的挑战: 挑战在于那些需要处理“分布外”问题的职位,这些问题无法通过提前训练来解决。例如,软件工程中需要大量创造性解决问题的部分。
最终,AI 实验室的计划是先自动化 AI 研究,然后让超级 AI 来解决样本效率这个难题。因此,核心问题变成了:一个本身不具备人类级别样本效率的 AI,是否有能力解决通往类人智能的最后那些研究难题?