生成式 AI 与维基百科编辑：我们在 2025 年学到了什么

一项针对生成式人工智能 (AI) 在维基百科编辑中应用的深入研究发现，直接复制粘贴 AI 生成的文本会带来严重问题。尽管这些文本的引用来源看起来真实，但超过三分之二的内容无法通过事实核查，因为信息在所引用的文献中根本不存在。研究强调，虽然 AI 工具不应被用来直接撰写内容，但它们在辅助研究，例如发现内容空白或寻找相关资料方面，展现了积极作用。因此，核心建议是：编辑者应将 AI 视为研究助手而非内容创作者，维基百科社区也需要引入更有效的检测工具和更清晰的编辑指南，以维护其内容的准确性和可信度。

AI 内容检测的发现

随着 ChatGPT 等工具的普及，在维基百科上出现了越来越多带有 AI 特征的内容。为了系统地评估这一现象，研究人员使用了一款名为 Pangram 的高精度检测工具，对 2022 年以来创建的数千篇新文章进行了分析。

趋势明显： 在 ChatGPT 发布之前，没有检测到任何 AI 生成的痕迹。此后，AI 生成内容的比例逐期上升。
初步筛查： 在 3,078 篇文章中，有 178 篇被标记为 AI 生成。
意外的发现： 与预期不同，这些文章中很少（仅 7%）包含虚构的“幻觉”引用。大多数引用的文献都是真实且相关的。

令人担忧的验证失败

真正的问题比虚假引用更加隐蔽和危险。在对被标记为 AI 生成的文章进行逐句核对后，一个惊人的事实浮出水面：

超过三分之二的 AI 生成文章未能通过验证。这意味着，文章中一个听起来很合理的句子，虽然引用了真实且相关的来源，但当你去查阅该来源时，会发现这句话所陈述的信息在来源中根本不存在。

这种 “验证失败” 的问题极为严重。它使得一篇文章看似有据可查，实则充满了无法核实、可能是错误的误导性信息。对于许多被 Pangram 标记的文章来说，几乎每一句引用都存在这个问题。这导致了巨大的清理成本，工作人员花费了远超当初创建文章的时间来修正或删除这些内容。

应对策略：检测与引导

为了从源头上解决问题，研究方采取了一套主动的干预策略，将 AI 检测与编辑者教育结合起来。

实时监控： 借助 Pangram，对新编辑者的草稿和正式编辑进行近乎实时的 AI 内容检测。
明确的指导： 创建了全新的培训模块，核心信息非常清晰：切勿将任何内容从 AI 聊天机器人复制粘贴到维基百科。
及时的沟通： 一旦检测到 AI 内容，系统会自动向编辑者发送邮件提醒，并辅以视频等形式的教学材料，解释为何不能直接使用 AI 撰写内容。

这一策略取得了显著成效。在干预后，尽管有成千上万名新编辑者参与项目，但最终只有 5% 的人在正式文章中添加了 AI 内容（远低于预期的 25%），并且所有这些问题内容都得到了及时修正或回退。

AI 作为研究工具的积极作用

尽管直接生成文本是不可取的，但 AI 工具在研究过程中仍然可以扮演有价值的辅助角色。一项针对学生的匿名调查显示，87% 的受访者认为 AI 在某些任务上很有帮助。

AI 工具被证明有用的方面包括：

寻找选题： 帮助学生识别与其课程相关的、值得编辑的文章。
发现内容空白： 指出现有文章中缺失的章节或需要更新的信息。
寻找可靠来源： 推荐尚未被发现的相关研究文献或资料。
评估草稿： 根据维基百科的要求，对自己写好的草稿进行初步评估。
语法与拼写修正。

重要的是，参与者是将 AI 用作 头脑风暴的伙伴和研究助理，而非代笔。人类的批判性思考和评估在整个过程中仍然是不可或缺的。

对维基百科未来的启示

随着 AI 技术日益普及，会有越来越多善意的编辑者无意中将不可靠的 AI 生成内容添加到维基百科。这些内容表面上看起来不错，只有在深入核查时才会发现问题。

因此，为了保护维基百科的完整性，必须采取行动：

装备编辑者： 为社群提供像 Pangram 这样准确的检测工具，帮助编辑者快速识别需要仔细审查的可疑内容。
更新指南： 在给新人的欢迎信息和编辑指南中，应明确强调直接使用 AI 生成文本的风险。
优化流程： 鼓励从查阅和整合来源开始，强调使用人类智慧进行总结和写作，而不是依赖 AI 的自动生成。