53 款模型的「洗车」测试

一项针对 53 款主流 AI 模型的“洗车测试”揭示了它们在基础逻辑推理上的普遍缺陷。测试提出的问题是：“我想洗车，洗车点在 50 米外，我应该走路还是开车？” 结果显示，绝大多数模型（42款）首次测试时错误地选择了“走路”，因为它们被“短距离适合步行”的通用启发式思维误导，而忽略了“车必须开到洗车点”这一关键前提。在重复测试中，只有 5 款模型能始终给出正确答案。这一发现强调了当前 AI 在上下文理解和可靠性方面的不足，并指出了上下文工程在弥补这些缺陷中的重要作用。

“洗车测试”：一个几乎所有模型都会失败的简单问题

这个测试的核心问题非常简单：“我想洗车，洗车点在 50 米外，我应该走路还是开车？” 显而易见的答案是开车，因为车需要被开到洗车点才能清洗。然而，这个简单的逻辑却难倒了绝大多数 AI 模型。

在初次测试中，53 款模型的结果令人惊讶：

42 款模型选择了“走路”。它们的推理普遍认为“50 米是短距离，走路更节能环保”，完全忽略了洗车这个核心目的。
只有 11 款模型首次回答正确。即便是顶级模型家族，如 Anthropic 和 OpenAI，也分别只有一款模型（Claude Opus 4.6 和 GPT-5）通过了测试。所有 Llama 和 Mistral 模型均告失败。

有趣的是，Perplexity 的 Sonar 模型虽然选择了“开车”，但理由却完全错误。它引用研究声称，走路消耗的卡路里需要通过粮食生产来补充，其产生的能源消耗比开车 50 米的污染更大。

可靠性挑战：重复测试下的表现

一次正确可能只是侥幸。为了检验模型的稳定性，研究人员对每款模型重复测试了 10 次。结果显示，情况变得更糟了。

10/10 正确率（5 款模型）：只有 Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4 这五款模型做到了每次都正确回答。它们是唯一表现出可靠推理能力的模型。
8/10 正确率（2 款模型）：GLM-5 和 Grok-4-1 Reasoning 表现接近完美，但 20% 的失败率在实际应用中是不可接受的。
7/10 正确率（GPT-5）：OpenAI 的旗舰模型失败率高达 30%。它在正确与错误的答案之间摇摆，正确时能指出“车需要到洗车点”，错误时则会谈论燃油效率。
低于 6/10 正确率：其他模型的表现如同抛硬币，甚至更差，完全不可靠。
0/10 正确率（33 款模型）：包括 GPT-4o、所有 Llama 和 Mistral 模型在内的大多数模型，从未给出过一次正确答案。

一些在单次测试中表现尚可的模型，在重复测试中暴露了其不稳定性。例如，Kimi K2.5 从首次正确变为 50% 的正确率，而 Sonar 则从首次正确变为 0% 正确率，其推理逻辑不变，但最终结论却完全相反。

与人类表现的对比

为了回应“人类也可能犯错”的观点，研究人员向 10,000 名真人提出了同样的问题。

71.5% 的人选择了“开车”。

这个结果表明，GPT-5 的表现（70% 正确率）与普通人类相当。尽管如此，人类的平均表现仍然优于 53 款 AI 模型中的 48 款。只有那 7 款表现最稳定的模型超越了人类的平均水平。

为何这个简单问题如此重要

这个测试暴露了 AI 在生产应用中的核心风险：可靠性问题。一个只需要一步逻辑推理的简单问题，就有近 90% 的模型无法稳定解决。这揭示了 AI 推理的三个层次：

从不正确（33/53）：模型被“短距离=走路”的简单规则困住，无法进行上下文思考。
有时正确（15/53）：模型能力存在，但与错误规则的竞争结果是随机的。这是最危险的类别，因为它们可能在评估时通过，但在实际部署中却会意外失败。
总是正确（5/53）：模型的上下文推理能力始终能压倒错误的通用规则。

Claude Sonnet 4.5 的回答完美体现了这种挣扎：“只有当你的车需要进入自动洗车通道时，开车才有意义。”——它看到了正确答案，但最终还是选择了“走路”。

如果模型连“车需要到洗车点”这种基本逻辑都无法稳定处理，我们又如何信任它们去处理更复杂的业务逻辑、多步骤工作流或模糊的边缘情况呢？

解决方案：上下文工程的重要性

这个测试是刻意在“零上下文”环境下进行的，这使得它成为一个有效的基准测试。模型的失败并非因为缺乏能力，而是因为 通用的启发式思维压倒了具体的任务推理。

上下文工程 提供了一条解决之道。通过在提问时提供结构化示例、领域模式和相关背景，可以帮助模型激活与任务相关的正确推理，而不是依赖通用的、有时会出错的规则。对于大多数现实世界的复杂任务而言，从“有时正确”到“总是正确”的跨越，往往取决于是否提供了足够有效的上下文。