随着大量人工智能生成的内容涌入,互联网正在面临信息质量下降和信任感削弱的危机。AI 检测公司 Pangram 的联合创始人 Max Spero 解释了他们的技术如何通过分析语言模型固有的、可预测的写作模式(或称“决策树”)来区分人类与机器的文本。尽管这项技术有效,但它正处于一场与不断进化的 AI 模型之间的持续“军备竞赛”中。最终,检测工具的目标并非惩罚,而是提高网络环境的透明度,帮助用户抵御低质量内容(“AI slop”)的泛滥,并努力保护互联网作为一个高信任度的交流空间。
问题:被“AI Slop”淹没的互联网
互联网正面临一场由 AI 生成内容引发的危机,这种现象被称为“slopocalypse”(垃圾末日)。这种内容的泛滥带来了多种问题:
- 质量下降: 大量内容是“没有灵魂的废话”,淹没了高质量、由人类创作的作品。
- 信任瓦解: 当人们难以分辨交流对象是人还是机器时,不信任感便会滋生。Spero 指出,AI 破坏了互联网上许多围绕信任和真实努力建立起来的空间。
- 写作单一化: 普遍的担忧是,AI 会导致独特的写作风格趋同,最终形成一种“单一文化”。一项调查显示,83% 的人认为 AI 将导致写作风格的崩溃。
- 牟利工具: 许多人将 AI 写作视为一种“快速致富”的方案,利用它批量生产低质量文章和书籍来获利,进一步污染了信息空间。
AI 让海量内容的生成变得轻而易举。如果没有办法区分人类和 AI 生成的内容,我们就失去了任何有意义的信噪比。
AI 检测如何运作:Pangram 的方法
Pangram 的 AI 检测技术并非简单地寻找关键词,而是基于一个复杂的机器学习模型,其训练过程独具一格。
- 创建“合成镜像”: 他们获取数百万份人类书写的文档,然后要求大型语言模型(LLM)生成主题和风格相似的“合成镜像”版本。
- 对比学习: 模型通过对比人类和 AI 文档的差异进行训练,学习区分两者的细微特征。
- 识别“决策树”: Spero 解释说,LLM 在写作时倾向于遵循狭窄且可预测的“决策树”,而人类的写作则充满了更多的变化和“混乱”。Pangram 的模型正是学习识别这些属于 AI 的狭窄路径。
专家称之为“模式崩溃”(mode collapse)。LLM 可能写出的关于《白鲸记》的所有文章,其决策树远比任何人类可能写出的文章要窄。
- 降低误报率: 通过一个名为“主动学习”的过程,模型会找出它不确定或错误的案例,然后将这些“困难样本”纳入新的训练中。这使得 Pangram 的误报率(将人类作品错判为 AI)降低到了万分之一。
挑战与军备竞赛
尽管检测技术在进步,但它面临着一场与 AI 生成技术之间持续的对抗。
- 模型快速迭代: 新的、更强大的 AI 模型不断涌现,其写作风格也在变化,这意味着检测工具必须每 3 到 6 周就从头开始重新训练。
- 被污染的训练数据: 随着 AI 内容在互联网上无处不在,未来要找到“纯净”的人类写作样本用于训练,将变得越来越困难。
- 人类开始像 AI 一样写作: 一个令人担忧的趋势是,人们因为频繁与 AI 互动,开始无意识地模仿其写作风格。
“我不想和 Claude 聊太多,因为我怕我会开始采用它的写作风格。”
- 这是一场持久战: Spero 将当前的状况比作计算机诞生初期的病毒与杀毒软件之争。他认为,我们正处在这场新的“对抗性产业”的零点。
目标:透明度,而非惩罚
Spero 强调,开发检测工具的最终目的不是为了制造“指责文化”,而是为了赋予用户更多的控制权和透明度。
- 作为对话的起点: 在学术界或出版业,检测结果不应被用作最终判决,而应作为开启对话的工具,用以了解作者是否以及如何使用了 AI。
- 策划个人信息流: 通过浏览器插件,用户可以识别社交媒体上的 AI 内容,并选择屏蔽或不予互动,从而主动策划一个更高质量、更人性化的信息环境。
- 保护互联网的信任基础: Spero 认为,互联网过去是一个高信任度的社会,而 AI 正在威胁这一基础。他的目标是减缓这种侵蚀,在享受 AI 带来的益处的同时,尽可能减轻其负面影响。
我希望看到人们用 AI 治疗癌症……让老年护理更容易。我也不希望看到 AI 污染互联网。我想看到 AI 好的一面蓬勃发展,并尽可能帮助减轻其有害影响。