Synth Daily

53 款模型的「洗车」测试

一项针对 53 款主流 AI 模型的“洗车测试”揭示了它们在基础逻辑推理上的普遍缺陷。测试提出的问题是:“我想洗车,洗车点在 50 米外,我应该走路还是开车?” 结果显示,绝大多数模型(42款)首次测试时错误地选择了“走路”,因为它们被“短距离适合步行”的通用启发式思维误导,而忽略了“车必须开到洗车点”这一关键前提。在重复测试中,只有 5 款模型能始终给出正确答案。这一发现强调了当前 AI 在上下文理解和可靠性方面的不足,并指出了上下文工程在弥补这些缺陷中的重要作用。

“洗车测试”:一个几乎所有模型都会失败的简单问题

这个测试的核心问题非常简单:“我想洗车,洗车点在 50 米外,我应该走路还是开车?” 显而易见的答案是 开车,因为车需要被开到洗车点才能清洗。然而,这个简单的逻辑却难倒了绝大多数 AI 模型。

在初次测试中,53 款模型的结果令人惊讶:

  • 42 款模型选择了“走路”。它们的推理普遍认为“50 米是短距离,走路更节能环保”,完全忽略了洗车这个核心目的。
  • 只有 11 款模型首次回答正确。即便是顶级模型家族,如 Anthropic 和 OpenAI,也分别只有一款模型(Claude Opus 4.6 和 GPT-5)通过了测试。所有 Llama 和 Mistral 模型均告失败。

有趣的是,Perplexity 的 Sonar 模型虽然选择了“开车”,但理由却完全错误。它引用研究声称,走路消耗的卡路里需要通过粮食生产来补充,其产生的能源消耗比开车 50 米的污染更大。

可靠性挑战:重复测试下的表现

一次正确可能只是侥幸。为了检验模型的稳定性,研究人员对每款模型重复测试了 10 次。结果显示,情况变得更糟了。

  • 10/10 正确率(5 款模型):只有 Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4 这五款模型做到了每次都正确回答。它们是唯一表现出可靠推理能力的模型。
  • 8/10 正确率(2 款模型):GLM-5 和 Grok-4-1 Reasoning 表现接近完美,但 20% 的失败率在实际应用中是不可接受的。
  • 7/10 正确率(GPT-5):OpenAI 的旗舰模型失败率高达 30%。它在正确与错误的答案之间摇摆,正确时能指出“车需要到洗车点”,错误时则会谈论燃油效率。
  • 低于 6/10 正确率:其他模型的表现如同抛硬币,甚至更差,完全不可靠。
  • 0/10 正确率(33 款模型):包括 GPT-4o、所有 Llama 和 Mistral 模型在内的大多数模型,从未给出过一次正确答案。

一些在单次测试中表现尚可的模型,在重复测试中暴露了其不稳定性。例如,Kimi K2.5 从首次正确变为 50% 的正确率,而 Sonar 则从首次正确变为 0% 正确率,其推理逻辑不变,但最终结论却完全相反。

与人类表现的对比

为了回应“人类也可能犯错”的观点,研究人员向 10,000 名真人提出了同样的问题。

  • 71.5% 的人选择了“开车”

这个结果表明,GPT-5 的表现(70% 正确率)与普通人类相当。尽管如此,人类的平均表现仍然优于 53 款 AI 模型中的 48 款。只有那 7 款表现最稳定的模型超越了人类的平均水平。

为何这个简单问题如此重要

这个测试暴露了 AI 在生产应用中的核心风险:可靠性问题。一个只需要一步逻辑推理的简单问题,就有近 90% 的模型无法稳定解决。这揭示了 AI 推理的三个层次:

  1. 从不正确(33/53):模型被“短距离=走路”的简单规则困住,无法进行上下文思考。
  2. 有时正确(15/53):模型能力存在,但与错误规则的竞争结果是随机的。这是最危险的类别,因为它们可能在评估时通过,但在实际部署中却会意外失败。
  3. 总是正确(5/53):模型的上下文推理能力始终能压倒错误的通用规则。

Claude Sonnet 4.5 的回答完美体现了这种挣扎:“只有当你的车需要进入自动洗车通道时,开车才有意义。”——它看到了正确答案,但最终还是选择了“走路”。

如果模型连“车需要到洗车点”这种基本逻辑都无法稳定处理,我们又如何信任它们去处理更复杂的业务逻辑、多步骤工作流或模糊的边缘情况呢?

解决方案:上下文工程的重要性

这个测试是刻意在“零上下文”环境下进行的,这使得它成为一个有效的基准测试。模型的失败并非因为缺乏能力,而是因为 通用的启发式思维压倒了具体的任务推理

上下文工程 提供了一条解决之道。通过在提问时提供结构化示例、领域模式和相关背景,可以帮助模型激活与任务相关的正确推理,而不是依赖通用的、有时会出错的规则。对于大多数现实世界的复杂任务而言,从“有时正确”到“总是正确”的跨越,往往取决于是否提供了足够有效的上下文。