大型语言模型(LLM)虽然在模仿语言和识别模式方面很强大,但它们无法真正理解或推导出物理学的基本定律。所谓的“氛围物理学”——即人们与 AI 深入探讨物理学并误以为取得了科学突破——是对 AI 语言能力的误判。最近的研究证实,即使有海量数据,AI 也无法独立推导出牛顿万有引力定律等基础模型,暴露了其在归纳和泛化方面的严重缺陷。这表明,真正的科学进步仍需依赖严谨的定量计算和实证,而不能依靠 AI 营造的“感觉良好”的对话。
物理学 vs. AI:根本差异
物理学的核心是用最简洁的定律来描述和预测自然,它追求的是定量的、可验证的真理。而 AI,特别是大型语言模型,则通过一种完全不同的方式运作。
- 传统编程: 用户输入 -> 预设算法进行计算 -> 输出结果。
- AI/机器学习: 用户输入 -> AI 自行从海量训练数据中寻找模式并构建算法 -> 输出结果。
这里的关键在于,AI 的能力完全受限于它的训练数据。它擅长在其被训练过的特定任务中发现和复制模式,但一旦遇到训练范围之外的新情况,其表现就会急剧下降。
“AI is only as good as its training data.”
(AI 的好坏取决于其训练数据。)
这意味着,一个在英文语料上训练的 AI 无法处理它没学过的语言;一个学习了大量白人面孔的 AI,在生成尼日利亚人面孔时会表现不佳。
“氛围物理学”的幻觉
“氛围物理学”(vibe physics)指的是用户与 LLM 进行看似深刻的物理学对话,并错误地认为他们正在合作取得有意义的科学突破。这是一种彻头彻尾的错觉。
问题在于,LLM 的核心目标之一是维持对话的进行。当它缺乏准确信息时,它不会承认自己的局限性,而是会自信地编造内容来满足用户,这极易导致错误信息的传播。人们之所以会相信,是因为他们将 AI 流畅的语言误认为是真正的智慧和理解力。
一场揭示真相的科学实验
为了验证 AI 是否具备真正的科学推理能力,研究人员进行了一项测试,旨在检验 AI 能否从数据中推导出“基础模型”(foundation model)——即可以应用于全新情境的普适性物理定律。
研究人员用牛顿万有引力定律作为例子来说明:
- 预测模型(如开普勒定律): 能够精确预测行星在特定情境(围绕太阳运行)下的轨道,但适用范围狭窄。
- 基础模型(如牛顿定律): 不仅能解释行星轨道,还能解释地球上的钟摆、月球的运动和抛射物的轨迹。它具有更强的通用性和解释力。
实验要求 AI 从大量的模拟轨道数据中,推导出背后遵循的引力法则。
实验结果:彻底的失败
尽管 AI 在预测具体轨道方面表现出色,但它在推导基本定律方面却一败涂地。
- AI 未能发现牛顿的万有引力定律。相反,它得出了一个极其复杂且不符合物理现实的力学法则。
- 即使在更大的数据集上进行微调,AI 为不同星系样本恢复的力学法则是相互矛盾的。
- 最引人注目的是,即使是那些在训练数据中明确包含牛顿定律的 LLM(如 o3、Claude Sonnet 4),也无法在测试中重新“发现”这一定律。
这项研究的关键发现是:AI 擅长在已知数据类型中进行预测,但完全无法将学到的知识泛化到新的任务中。它只是在进行模式匹配,而非真正的理解。
警惕 AI 带来的伪科学
与 LLM 讨论物理学,尤其是在不具备专业知识的情况下,是极其危险的。非专业人士很难区分一个真正的专家、一个骗子和一个听起来头头是道的聊天机器人。人们很容易仅仅根据“感觉”来判断信息的价值,从而陷入一种“讨人喜欢的幻觉”中。
如果你正在与一个大型语言模型“共同开发”你的物理学理论,可以肯定地说,你的理论毫无价值。
真正的物理学研究,需要进行严谨的定量计算,并用现实数据进行验证。而“氛围物理学”则助长了一种由 AI 驱动的新型伪科学,它用流畅的空谈取代了艰苦的科学工作。