GPT-5.5 的幻觉次数比采用 MIT 许可证的 GLM-5.2 高出 3 倍

主流的人工智能实验室开始反思一个核心观念：模型并非越大越好。尽管超大模型在基准测试中依然领先，但其边际收益正在递减，一个明显的例子是，开源模型 GLM-5.2 的性能已十分接近比它大得多的闭源模型。更严重的问题是，一些巨大的模型在面对不确定性时，倾向于自信地编造答案而不是承认“不知道”，导致极高的“幻觉率”。因此，未来的人工智能发展必须在原始能力、幻觉率和计算效率这三者之间寻求平衡，而不是盲目追求规模。

规模越大，真的越好吗？

在大多数情况下，更大的模型确实在基准测试中得分更高。然而，这种优势的界限正变得越来越模糊。

Z.ai 最新发布的开源模型 GLM-5.2 (753B 参数) 在智能指数上仅比 GPT-5.5 落后 4 分。
相比之下，GPT-5.5 和 Opus 4.8 等闭源模型的参数规模保守估计在 1-2T 之间，几乎是 GLM-5.2 的两倍。

如果一个开源模型的表现能如此接近一个规模大它一倍半到两倍的闭源模型，这清楚地表明，单纯扩大规模所带来的“智能”提升已经显著放缓。

更大的模型，更自信的“胡说”

当模型用大量事实性数据进行训练时，它会学会“永远都有答案”，但这并不总是好事。在某些情况下，更大的模型反而更容易产生幻觉，即自信地给出错误的答案。

一个在“全知基准测试”(AA-Omniscience benchmark) 上的幻觉率排名揭示了惊人的事实：

DeepSeek V4 Pro (1.6T 参数): 幻觉率高达 94%。这意味着在它无法解决的问题中，只有 6% 的情况它会承认“不知道”。
GPT-5.5: 幻觉率为 86%。
Fable 5: 幻觉率为 48%。
Opus 4.8: 幻觉率为 36%。
GLM-5.2: 幻觉率仅为 28%。

在一个具体的编程任务测试中，这个现象得到了进一步证实。面对一个有逻辑缺陷的复杂 Python 问题：

DeepSeek V4 Pro 花费了近 3 分钟的计算时间，最终给出了一个结构优美但完全错误的解决方案。
GLM-5.2 仅用 12 秒就识别出任务在逻辑上的不可能性，并正确指出了问题所在。

这表明，像 GPT-5.5 和 DeepSeek V4 Pro 这样巨大的模型，因为规模过于庞大，反而没有学会如何识别复杂的逻辑谬误或在不确定时坦诚地说“我不知道”。

现代人工智能的三难困境

我们应该警惕盲目增加模型的参数数量、数据量或计算资源。当一个比 DeepSeek V4 Pro 小一半的模型能更快地识别出问题时，我们必须承认，模型的“智能”不仅会趋于平缓，有时甚至会变得更糟。

对于行业和普通用户而言，这意味着我们不能再仅凭模型的规模或理论性能来选择和评估 AI。

未来的发展需要围绕一个尚未解决的现代大语言模型“三难困境”来设计：

原始能力 (Raw capability): 模型解决问题的基本水平。
不确定性校准/幻觉率 (Uncertainty calibration/hallucination rate): 模型在不知道答案时承认“不知道”的能力。
计算效率 (Computational efficiency): 完成任务所需的计算资源和时间。

继续训练越来越大的模型，而不解决幻觉和效率问题，将是一条死胡同。