Synth Daily

RLVR 在科学领域可能表现得尤为糟糕

该内容探讨了为何在科学发现领域,简单的强化学习(RL)验证循环可能并不适用。文章通过多个科学史案例指出,重大科学理论的验证周期极长,新理论在初期甚至会做出比旧理论更差的预测。从日心说到广义相对论,科学进步依赖于难以量化的判断、启发式方法以及研究者长期的坚持,而非即时验证。因此,结论是,若要利用人工智能推动科学突破,不能仅依赖于寻找“正确答案”的紧密验证循环,而需要保留并支持那些看似固执、多样化的研究路线,因为它们的价值可能在几十年甚至几百年后才能显现。

科学验证的漫长之路

许多人认为人工智能(AI)将在科学领域取得巨大突破,因为:

  1. 科学被认为是 可验证的
  2. AI 在拥有 紧密验证循环 的领域表现出色,例如编程和数学,因为它可以在这些循环上进行强化学习(RL)。

然而,科学史表明,理论的验证周期可能长达数十年甚至数百年,而且实验结果也未必能立刻排除其他替代理论。

古希腊人否定了阿里斯塔克斯的日心说,因为该理论意味着恒星应有视差,但直到1838年,人们才首次成功测量到恒星视差。

“更好”的理论可能做出更糟的预测

一个广为人知的例子是哥白尼的日心说模型。它最初的预测精度其实 不如 托勒密的模型。

  • 托勒密的模型经过了上千年的修正和调整,积累了大量“本轮”来解释天体运动。
  • 哥白尼的模型因为坚持柏拉图式的“完美圆形轨道”理念,反而需要增加更多的本轮来修正,导致模型在当时看来 既不更准确,也不更简洁

那么,在1543年,为什么哥白尼的理论是“更好”的?从当时的证据来看,它几乎不是。人们无法预见到,日心说将在未来与开普勒三定律以及牛顿的万有引力理论结合,形成一个更简洁、更优美的统一体系。

当时唯一支持哥白尼的 先验理由 是:他的理论能自然地解释行星的逆行现象,而托勒密的模型中,逆行只是一个临时添加的设定。

进展性与退行性研究

判断一个研究方向是 进展性(能够预测和解释新现象)还是 退行性(需要不断修补以适应反常现象)是极其困难的。

  • 成功的案例: 天王星的轨道与牛顿力学预测不符。天文学家勒维耶预测存在一颗未知行星的干扰,并计算了其位置。最终,人们在他预测的地方发现了海王星。这是牛顿力学的一次伟大胜利。

  • 失败的案例: 水星的近日点进动也存在异常。天文学家同样猜测水星轨道内存在一颗未知行星“祝融星”。但经过数十年寻找无果,这个异常最终由1915年爱因斯坦的广义相对论解决。

在事前,你无法轻易判断一个反常现象的背后,究竟是一个等待被发现的新事实,还是一个现有理论框架的根本缺陷。

一个坚定的牛顿派学者会不断提出新的假设来维护理论:找不到行星?那它一定太小了。望远镜升级了还找不到?那一定是被宇宙尘埃挡住了。这种看似“打补丁”的行为,在结果揭晓前,并非不合理。

固执是科学的必要品质

重大科学突破的验证周期极长,且过程充满争议。这意味着,真正的概念性突破 无法通过简单的强化学习循环来训练

就像爱因斯坦坚持认为不应存在任意的惯性参考系一样,科学进步需要研究者对某些想法抱有近乎偏执的坚持。

普劳特在1815年提出假说,认为所有元素的原子量都是整数。但实验数据(如氯的原子量为35.5)不断挑战这个假说。然而,普劳特的追随者们并未放弃,他们先后提出了“样品不纯”、“存在分数原子量”等解释。这个争论持续了近一个世纪,直到人们发现同位素的存在——这些元素在化学上无法区分,但物理上可以分离。

这个故事说明,在事前,我们无法知道哪个研究方向最终会更有成效。我们需要同时投入到多个看似矛盾的研究路线中。而这种投入,在个体层面看来,就是一群科学家对各自偏爱的研究议程表现出 极度的、不合理的固执

达尔文主义的启示

自然选择理论在概念上比万有引力定律简单得多,但它比后者晚了近两个世纪才被提出。

  • 达尔文的理论 无法进行决定性的检验。证据是间接的、回顾性的和累积的,不像牛顿可以精确计算月球轨道来验证其方程。
  • 该理论的诞生需要多个 辅助性的认知基石,包括:
    • 地质学 提供的“深层时间”概念。
    • 古生物学 发现的灭绝和过渡物种化石。
    • 生物地理学 的全球观察。
    • 人工选择(如育种)带来的实践经验。

这表明,即使一个想法的本质看似显而易见,也可能需要数千年的知识积累才能被完整地阐述出来。科学领域的平行发现模式也印证了这一点,即重大创新往往依赖于一系列成熟的先决条件,而不太可能“过早”发生。