人工智能的进步正呈现出一种不均衡的态势。那些能够通过大规模自动化测试进行强化学习(RL)的技能,例如编程和特定数学问题,正在飞速发展。然而,那些难以客观量化、依赖主观判断的技能,如创意写作,其进步则相对缓慢。这种分化形成了一道日益扩大的“强化学习差距”,它不仅决定了当前AI的能力边界,也预示着未来哪些行业和工作将面临被自动化重塑的命运。
AI进步的两种速度
当前AI的发展并非齐头并进。一方面,AI编程工具的迭代速度惊人,不断解锁新的自动化能力。另一方面,用于处理主观任务(如撰写邮件)的AI,其带来的价值与一年前相比并无显著提升。
- 高速发展的领域: 依赖于清晰、可衡量标准的任务,如代码调试和竞技数学。
- 进展缓慢的领域: 涉及主观判断的任务,如评估一封邮件或一段文字的优劣。
这种差异的核心在于,AI产品越来越依赖强化学习(Reinforcement Learning, RL)来驱动改进。
什么是“强化学习差距”?
强化学习是过去半年推动AI进步的最大动力。其核心是通过海量的、可自动评估的测试来训练模型。当一个任务有明确的“通过/失败”标准时,强化学习的效果最好,因为它可以在无人干预的情况下重复数十亿次测试。
随着行业越来越依赖强化学习来改进产品,我们看到,那些可以被自动评分的能力和那些不能被自动评分的能力之间,出现了真正的差异。
由此产生的就是“强化学习差距” (Reinforcement Gap) —— 它正在成为决定AI系统能力范围的最重要因素之一。
为什么编程是强化学习的完美对象?
软件开发是强化学习的理想应用场景。在AI出现之前,软件工程领域就已经建立了一套成熟、系统的自动化测试流程,以确保代码在部署前不会出错。
- 现成的测试系统: 单元测试、集成测试、安全测试等,为AI提供了现成的验证工具。
- 大规模重复: 这些测试可以大规模、系统化地重复,完美契合了强化学习的训练需求。
- 明确的结果: 代码要么通过测试,要么不通过,这种清晰的反馈机制极大地加速了AI的学习进程。
相比之下,我们没有一个简单的测试工具来验证一封邮件写得好不好,或者一个聊天机器人的回应是否得体,因为这些本质上是主观的。
并非所有任务都非黑即白
有些任务的可测试性比我们想象的要高。例如,AI生成视频曾被认为是难以测试的领域,但OpenAI的Sora 2模型取得了巨大进步,这表明情况可能并非如此。
Sora 2的视频在以下方面表现出了可被测试和改进的特性:
- 物体恒定性: 物体不会凭空出现或消失。
- 面部一致性: 人脸保持稳定,而不是特征的随意组合。
- 物理规律: 视频在细节上遵循物理法则。
这些特性的背后,很可能都有一套强大的强化学习系统在进行评估和优化,最终实现了从“有趣的幻觉”到“逼真影像”的飞跃。
一个流程的可测试性,将是决定它最终能成为一个实用产品,还是仅仅停留在激动人心的演示阶段的关键因素。
差距带来的深远影响
只要强化学习仍然是AI产品化的主要工具,这道差距就只会越来越大。这对初创公司乃至整个经济都具有重要意义。
如果一个流程最终被证明是“RL友好型”的,那么它很可能会被成功自动化,从事相关工作的人则可能需要寻找新的职业方向。例如,思考一下哪些医疗服务是可以通过强化学习训练的,这个问题对未来二十年的经济形态有着巨大的影响。从Sora 2这样的惊喜来看,我们或许不必等待太久就能得到答案。