一项针对生成式人工智能 (AI) 在维基百科编辑中应用的深入研究发现,直接复制粘贴 AI 生成的文本会带来严重问题。尽管这些文本的引用来源看起来真实,但超过三分之二的内容无法通过事实核查,因为信息在所引用的文献中根本不存在。研究强调,虽然 AI 工具不应被用来直接撰写内容,但它们在辅助研究,例如发现内容空白或寻找相关资料方面,展现了积极作用。因此,核心建议是:编辑者应将 AI 视为研究助手而非内容创作者,维基百科社区也需要引入更有效的检测工具和更清晰的编辑指南,以维护其内容的准确性和可信度。
AI 内容检测的发现
随着 ChatGPT 等工具的普及,在维基百科上出现了越来越多带有 AI 特征的内容。为了系统地评估这一现象,研究人员使用了一款名为 Pangram 的高精度检测工具,对 2022 年以来创建的数千篇新文章进行了分析。
- 趋势明显: 在 ChatGPT 发布之前,没有检测到任何 AI 生成的痕迹。此后,AI 生成内容的比例逐期上升。
- 初步筛查: 在 3,078 篇文章中,有 178 篇被标记为 AI 生成。
- 意外的发现: 与预期不同,这些文章中很少(仅 7%)包含虚构的“幻觉”引用。大多数引用的文献都是真实且相关的。
令人担忧的验证失败
真正的问题比虚假引用更加隐蔽和危险。在对被标记为 AI 生成的文章进行逐句核对后,一个惊人的事实浮出水面:
超过三分之二的 AI 生成文章未能通过验证。这意味着,文章中一个听起来很合理的句子,虽然引用了真实且相关的来源,但当你去查阅该来源时,会发现这句话所陈述的信息在来源中根本不存在。
这种 “验证失败” 的问题极为严重。它使得一篇文章看似有据可查,实则充满了无法核实、可能是错误的误导性信息。对于许多被 Pangram 标记的文章来说,几乎每一句引用都存在这个问题。这导致了巨大的清理成本,工作人员花费了远超当初创建文章的时间来修正或删除这些内容。
应对策略:检测与引导
为了从源头上解决问题,研究方采取了一套主动的干预策略,将 AI 检测与编辑者教育结合起来。
- 实时监控: 借助 Pangram,对新编辑者的草稿和正式编辑进行近乎实时的 AI 内容检测。
- 明确的指导: 创建了全新的培训模块,核心信息非常清晰:切勿将任何内容从 AI 聊天机器人复制粘贴到维基百科。
- 及时的沟通: 一旦检测到 AI 内容,系统会自动向编辑者发送邮件提醒,并辅以视频等形式的教学材料,解释为何不能直接使用 AI 撰写内容。
这一策略取得了显著成效。在干预后,尽管有成千上万名新编辑者参与项目,但最终只有 5% 的人在正式文章中添加了 AI 内容(远低于预期的 25%),并且所有这些问题内容都得到了及时修正或回退。
AI 作为研究工具的积极作用
尽管直接生成文本是不可取的,但 AI 工具在研究过程中仍然可以扮演有价值的辅助角色。一项针对学生的匿名调查显示,87% 的受访者认为 AI 在某些任务上很有帮助。
AI 工具被证明有用的方面包括:
- 寻找选题: 帮助学生识别与其课程相关的、值得编辑的文章。
- 发现内容空白: 指出现有文章中缺失的章节或需要更新的信息。
- 寻找可靠来源: 推荐尚未被发现的相关研究文献或资料。
- 评估草稿: 根据维基百科的要求,对自己写好的草稿进行初步评估。
- 语法与拼写修正。
重要的是,参与者是将 AI 用作 头脑风暴的伙伴和研究助理,而非代笔。人类的批判性思考和评估在整个过程中仍然是不可或缺的。
对维基百科未来的启示
随着 AI 技术日益普及,会有越来越多善意的编辑者无意中将不可靠的 AI 生成内容添加到维基百科。这些内容表面上看起来不错,只有在深入核查时才会发现问题。
因此,为了保护维基百科的完整性,必须采取行动:
- 装备编辑者: 为社群提供像 Pangram 这样准确的检测工具,帮助编辑者快速识别需要仔细审查的可疑内容。
- 更新指南: 在给新人的欢迎信息和编辑指南中,应明确强调直接使用 AI 生成文本的风险。
- 优化流程: 鼓励从查阅和整合来源开始,强调使用人类智慧进行总结和写作,而不是依赖 AI 的自动生成。