Synth Daily

生成式 AI 与维基百科编辑:我们在 2025 年学到了什么

一项针对生成式人工智能 (AI) 在维基百科编辑中应用的深入研究发现,直接复制粘贴 AI 生成的文本会带来严重问题。尽管这些文本的引用来源看起来真实,但超过三分之二的内容无法通过事实核查,因为信息在所引用的文献中根本不存在。研究强调,虽然 AI 工具不应被用来直接撰写内容,但它们在辅助研究,例如发现内容空白或寻找相关资料方面,展现了积极作用。因此,核心建议是:编辑者应将 AI 视为研究助手而非内容创作者,维基百科社区也需要引入更有效的检测工具和更清晰的编辑指南,以维护其内容的准确性和可信度。

AI 内容检测的发现

随着 ChatGPT 等工具的普及,在维基百科上出现了越来越多带有 AI 特征的内容。为了系统地评估这一现象,研究人员使用了一款名为 Pangram 的高精度检测工具,对 2022 年以来创建的数千篇新文章进行了分析。

  • 趋势明显: 在 ChatGPT 发布之前,没有检测到任何 AI 生成的痕迹。此后,AI 生成内容的比例逐期上升。
  • 初步筛查: 在 3,078 篇文章中,有 178 篇被标记为 AI 生成。
  • 意外的发现: 与预期不同,这些文章中很少(仅 7%)包含虚构的“幻觉”引用。大多数引用的文献都是真实且相关的。

令人担忧的验证失败

真正的问题比虚假引用更加隐蔽和危险。在对被标记为 AI 生成的文章进行逐句核对后,一个惊人的事实浮出水面:

超过三分之二的 AI 生成文章未能通过验证。这意味着,文章中一个听起来很合理的句子,虽然引用了真实且相关的来源,但当你去查阅该来源时,会发现这句话所陈述的信息在来源中根本不存在。

这种 “验证失败” 的问题极为严重。它使得一篇文章看似有据可查,实则充满了无法核实、可能是错误的误导性信息。对于许多被 Pangram 标记的文章来说,几乎每一句引用都存在这个问题。这导致了巨大的清理成本,工作人员花费了远超当初创建文章的时间来修正或删除这些内容。

应对策略:检测与引导

为了从源头上解决问题,研究方采取了一套主动的干预策略,将 AI 检测与编辑者教育结合起来。

  • 实时监控: 借助 Pangram,对新编辑者的草稿和正式编辑进行近乎实时的 AI 内容检测。
  • 明确的指导: 创建了全新的培训模块,核心信息非常清晰:切勿将任何内容从 AI 聊天机器人复制粘贴到维基百科
  • 及时的沟通: 一旦检测到 AI 内容,系统会自动向编辑者发送邮件提醒,并辅以视频等形式的教学材料,解释为何不能直接使用 AI 撰写内容。

这一策略取得了显著成效。在干预后,尽管有成千上万名新编辑者参与项目,但最终只有 5% 的人在正式文章中添加了 AI 内容(远低于预期的 25%),并且所有这些问题内容都得到了及时修正或回退。

AI 作为研究工具的积极作用

尽管直接生成文本是不可取的,但 AI 工具在研究过程中仍然可以扮演有价值的辅助角色。一项针对学生的匿名调查显示,87% 的受访者认为 AI 在某些任务上很有帮助。

AI 工具被证明有用的方面包括:

  • 寻找选题: 帮助学生识别与其课程相关的、值得编辑的文章。
  • 发现内容空白: 指出现有文章中缺失的章节或需要更新的信息。
  • 寻找可靠来源: 推荐尚未被发现的相关研究文献或资料。
  • 评估草稿: 根据维基百科的要求,对自己写好的草稿进行初步评估。
  • 语法与拼写修正。

重要的是,参与者是将 AI 用作 头脑风暴的伙伴和研究助理,而非代笔。人类的批判性思考和评估在整个过程中仍然是不可或缺的。

对维基百科未来的启示

随着 AI 技术日益普及,会有越来越多善意的编辑者无意中将不可靠的 AI 生成内容添加到维基百科。这些内容表面上看起来不错,只有在深入核查时才会发现问题。

因此,为了保护维基百科的完整性,必须采取行动:

  • 装备编辑者: 为社群提供像 Pangram 这样准确的检测工具,帮助编辑者快速识别需要仔细审查的可疑内容。
  • 更新指南: 在给新人的欢迎信息和编辑指南中,应明确强调直接使用 AI 生成文本的风险。
  • 优化流程: 鼓励从查阅和整合来源开始,强调使用人类智慧进行总结和写作,而不是依赖 AI 的自动生成。