AI模型为啥爱用破折号？

AI 模型频繁使用破折号（—）已成为其写作风格的一个显著特征。在排除了破折号功能灵活或能节省字符等常见但说服力不足的解释后，一个更可信的理论浮出水面。该理论认为，AI 的这种习惯源于其训练数据中包含了大量 19 世纪末至 20 世纪初的数字化印刷书籍。这些历史文献使用破折号的频率远高于现代文本，导致模型在学习语言时习得了这一独特的标点符号风格，并将其带入了现代的生成内容中。

难以令人信服的解释

关于 AI 为何偏爱破折号，流传着几种解释，但它们都经不起推敲。

训练数据本就如此： 有人认为这只是模型模仿了普通英文文本。但如果破折号在人类和 AI 的写作中同样常见，人们就不会觉得这是 AI 的一个显著特征。
功能灵活，便于“安全出牌”： 这种观点认为，使用破折号能让模型在延续当前观点和开启新观点之间保留选择。然而，其他标点符号同样灵活，而且用“安全出牌”来形容模型的生成逻辑并不准确。
追求简洁高效： 另一种说法是，模型训练偏向简洁，而破折号能有效节省字符。但这也不成立，因为许多破折号可以被同样简洁的逗号替代。如果模型真的追求简洁，它完全可以通过减少冗余的套话来实现。

人类反馈强化学习（RLHF）的影响

一个有趣的理论是，这种风格可能来自人类反馈训练师的方言习惯。例如，OpenAI 在肯尼亚和尼日利亚等国雇佣了大量英语流利的训练师。他们的方言（非洲英语）确实影响了模型，使其偏爱使用“delve”（探究）这类词汇。

那么，非洲英语是否也常用破折号呢？

数据显示，尼日利亚英语文本中破折号的使用频率（约 0.022%）实际上远低于普通英语文本（约 0.25% 至 0.275%）。

因此，这个理论站不住脚。AI 对破折号和“delve”一词的偏爱，其背后机制并不相同。

印刷媒体的数字化：一个更合理的解释

一个关键的观察是，GPT-3.5 并不滥用破折号，但后来的 GPT-4o 使用频率却高出约 10 倍。从 2022 年到 2024 年，究竟发生了什么变化？

答案很可能在于 训练数据的构成。

随着模型能力的显现，AI 公司意识到需要更多高质量的训练数据，于是开始大规模扫描印刷书籍。与主要包含当代流行作品的盗版电子书不同，这些新扫描的书籍包含了大量更古老的文献。

最合理的解释是：顶尖模型依赖 19 世纪末和 20 世纪初的印刷书籍作为高质量训练数据，而这些书籍使用破折号的频率比当代英语散文高出约 30%。模型正是从这些充满破折号的文本中学习了英语。

历史研究也证实，破折号的使用频率在 1860 年左右达到顶峰。像经典名著《白鲸》中，就包含了惊人的 1728 个破折号。

理论总结与遗留问题

总的来说，关于 AI 滥用破折号的解释可以分为三类：

结构性解释： 认为破折号因其自身特点（节省字符、保留选择性）而被模型偏爱。这个观点说服力不强。
RLHF 解释： 认为人类评估者偏爱破折号，可能因为其更具对话感。这个观点缺乏数据支持。
训练数据解释： 认为训练数据中破折号过多，特别是来自 19 世纪末至 20 世纪初的印刷书籍。这是目前最可信的解释。

尽管如此，这在很大程度上仍是推测。例如，如果模型吸收了旧式标点，为何其整体文风听起来不像 19 世纪的作品？或许还有更简单的解释，比如人类训练师单纯因为破折号更具“对话感”而偏爱它，从而形成了一种正向反馈。要证实或证伪这些理论，还需要来自 AI 公司内部的更多信息。