这是人类写的吗？

随着大量人工智能生成的内容涌入，互联网正在面临信息质量下降和信任感削弱的危机。AI 检测公司 Pangram 的联合创始人 Max Spero 解释了他们的技术如何通过分析语言模型固有的、可预测的写作模式（或称“决策树”）来区分人类与机器的文本。尽管这项技术有效，但它正处于一场与不断进化的 AI 模型之间的持续“军备竞赛”中。最终，检测工具的目标并非惩罚，而是提高网络环境的透明度，帮助用户抵御低质量内容（“AI slop”）的泛滥，并努力保护互联网作为一个高信任度的交流空间。

问题：被“AI Slop”淹没的互联网

互联网正面临一场由 AI 生成内容引发的危机，这种现象被称为“slopocalypse”（垃圾末日）。这种内容的泛滥带来了多种问题：

质量下降： 大量内容是“没有灵魂的废话”，淹没了高质量、由人类创作的作品。
信任瓦解： 当人们难以分辨交流对象是人还是机器时，不信任感便会滋生。Spero 指出，AI 破坏了互联网上许多围绕信任和真实努力建立起来的空间。
写作单一化： 普遍的担忧是，AI 会导致独特的写作风格趋同，最终形成一种“单一文化”。一项调查显示，83% 的人认为 AI 将导致写作风格的崩溃。
牟利工具： 许多人将 AI 写作视为一种“快速致富”的方案，利用它批量生产低质量文章和书籍来获利，进一步污染了信息空间。

AI 让海量内容的生成变得轻而易举。如果没有办法区分人类和 AI 生成的内容，我们就失去了任何有意义的信噪比。

AI 检测如何运作：Pangram 的方法

Pangram 的 AI 检测技术并非简单地寻找关键词，而是基于一个复杂的机器学习模型，其训练过程独具一格。

创建“合成镜像”： 他们获取数百万份人类书写的文档，然后要求大型语言模型（LLM）生成主题和风格相似的“合成镜像”版本。
对比学习： 模型通过对比人类和 AI 文档的差异进行训练，学习区分两者的细微特征。
识别“决策树”： Spero 解释说，LLM 在写作时倾向于遵循狭窄且可预测的“决策树”，而人类的写作则充满了更多的变化和“混乱”。Pangram 的模型正是学习识别这些属于 AI 的狭窄路径。

专家称之为“模式崩溃”（mode collapse）。LLM 可能写出的关于《白鲸记》的所有文章，其决策树远比任何人类可能写出的文章要窄。

降低误报率： 通过一个名为“主动学习”的过程，模型会找出它不确定或错误的案例，然后将这些“困难样本”纳入新的训练中。这使得 Pangram 的误报率（将人类作品错判为 AI）降低到了万分之一。

挑战与军备竞赛

尽管检测技术在进步，但它面临着一场与 AI 生成技术之间持续的对抗。

模型快速迭代： 新的、更强大的 AI 模型不断涌现，其写作风格也在变化，这意味着检测工具必须每 3 到 6 周就从头开始重新训练。
被污染的训练数据： 随着 AI 内容在互联网上无处不在，未来要找到“纯净”的人类写作样本用于训练，将变得越来越困难。
人类开始像 AI 一样写作： 一个令人担忧的趋势是，人们因为频繁与 AI 互动，开始无意识地模仿其写作风格。

“我不想和 Claude 聊太多，因为我怕我会开始采用它的写作风格。”

这是一场持久战： Spero 将当前的状况比作计算机诞生初期的病毒与杀毒软件之争。他认为，我们正处在这场新的“对抗性产业”的零点。

目标：透明度，而非惩罚

Spero 强调，开发检测工具的最终目的不是为了制造“指责文化”，而是为了赋予用户更多的控制权和透明度。

作为对话的起点： 在学术界或出版业，检测结果不应被用作最终判决，而应作为开启对话的工具，用以了解作者是否以及如何使用了 AI。
策划个人信息流： 通过浏览器插件，用户可以识别社交媒体上的 AI 内容，并选择屏蔽或不予互动，从而主动策划一个更高质量、更人性化的信息环境。
保护互联网的信任基础： Spero 认为，互联网过去是一个高信任度的社会，而 AI 正在威胁这一基础。他的目标是减缓这种侵蚀，在享受 AI 带来的益处的同时，尽可能减轻其负面影响。

我希望看到人们用 AI 治疗癌症……让老年护理更容易。我也不希望看到 AI 污染互联网。我想看到 AI 好的一面蓬勃发展，并尽可能帮助减轻其有害影响。