RLVR 在科学领域可能表现得尤为糟糕

该内容探讨了为何在科学发现领域，简单的强化学习（RL）验证循环可能并不适用。文章通过多个科学史案例指出，重大科学理论的验证周期极长，新理论在初期甚至会做出比旧理论更差的预测。从日心说到广义相对论，科学进步依赖于难以量化的判断、启发式方法以及研究者长期的坚持，而非即时验证。因此，结论是，若要利用人工智能推动科学突破，不能仅依赖于寻找“正确答案”的紧密验证循环，而需要保留并支持那些看似固执、多样化的研究路线，因为它们的价值可能在几十年甚至几百年后才能显现。

科学验证的漫长之路

许多人认为人工智能（AI）将在科学领域取得巨大突破，因为：

科学被认为是 可验证的。
AI 在拥有 紧密验证循环 的领域表现出色，例如编程和数学，因为它可以在这些循环上进行强化学习（RL）。

然而，科学史表明，理论的验证周期可能长达数十年甚至数百年，而且实验结果也未必能立刻排除其他替代理论。

古希腊人否定了阿里斯塔克斯的日心说，因为该理论意味着恒星应有视差，但直到1838年，人们才首次成功测量到恒星视差。

“更好”的理论可能做出更糟的预测

一个广为人知的例子是哥白尼的日心说模型。它最初的预测精度其实不如托勒密的模型。

托勒密的模型经过了上千年的修正和调整，积累了大量“本轮”来解释天体运动。
哥白尼的模型因为坚持柏拉图式的“完美圆形轨道”理念，反而需要增加更多的本轮来修正，导致模型在当时看来 既不更准确，也不更简洁。

那么，在1543年，为什么哥白尼的理论是“更好”的？从当时的证据来看，它几乎不是。人们无法预见到，日心说将在未来与开普勒三定律以及牛顿的万有引力理论结合，形成一个更简洁、更优美的统一体系。

当时唯一支持哥白尼的 先验理由 是：他的理论能自然地解释行星的逆行现象，而托勒密的模型中，逆行只是一个临时添加的设定。

进展性与退行性研究

判断一个研究方向是 进展性（能够预测和解释新现象）还是 退行性（需要不断修补以适应反常现象）是极其困难的。

成功的案例： 天王星的轨道与牛顿力学预测不符。天文学家勒维耶预测存在一颗未知行星的干扰，并计算了其位置。最终，人们在他预测的地方发现了海王星。这是牛顿力学的一次伟大胜利。
失败的案例： 水星的近日点进动也存在异常。天文学家同样猜测水星轨道内存在一颗未知行星“祝融星”。但经过数十年寻找无果，这个异常最终由1915年爱因斯坦的广义相对论解决。

在事前，你无法轻易判断一个反常现象的背后，究竟是一个等待被发现的新事实，还是一个现有理论框架的根本缺陷。

一个坚定的牛顿派学者会不断提出新的假设来维护理论：找不到行星？那它一定太小了。望远镜升级了还找不到？那一定是被宇宙尘埃挡住了。这种看似“打补丁”的行为，在结果揭晓前，并非不合理。

固执是科学的必要品质

重大科学突破的验证周期极长，且过程充满争议。这意味着，真正的概念性突破 无法通过简单的强化学习循环来训练。

就像爱因斯坦坚持认为不应存在任意的惯性参考系一样，科学进步需要研究者对某些想法抱有近乎偏执的坚持。

普劳特在1815年提出假说，认为所有元素的原子量都是整数。但实验数据（如氯的原子量为35.5）不断挑战这个假说。然而，普劳特的追随者们并未放弃，他们先后提出了“样品不纯”、“存在分数原子量”等解释。这个争论持续了近一个世纪，直到人们发现同位素的存在——这些元素在化学上无法区分，但物理上可以分离。

这个故事说明，在事前，我们无法知道哪个研究方向最终会更有成效。我们需要同时投入到多个看似矛盾的研究路线中。而这种投入，在个体层面看来，就是一群科学家对各自偏爱的研究议程表现出 极度的、不合理的固执。

达尔文主义的启示

自然选择理论在概念上比万有引力定律简单得多，但它比后者晚了近两个世纪才被提出。

达尔文的理论 无法进行决定性的检验。证据是间接的、回顾性的和累积的，不像牛顿可以精确计算月球轨道来验证其方程。
该理论的诞生需要多个 辅助性的认知基石，包括：
- 地质学 提供的“深层时间”概念。
- 古生物学 发现的灭绝和过渡物种化石。
- 生物地理学 的全球观察。
- 人工选择（如育种）带来的实践经验。

这表明，即使一个想法的本质看似显而易见，也可能需要数千年的知识积累才能被完整地阐述出来。科学领域的平行发现模式也印证了这一点，即重大创新往往依赖于一系列成熟的先决条件，而不太可能“过早”发生。