随着大型语言模型的普及,科学出版领域正被大量由 AI 生成的虚假内容所淹没。这些“AI 垃圾”包括伪造的引用、重复的模板化论文和虚假的图像,极大地增加了编辑和审稿人的负担,严重威胁了学术诚信。热门研究领域尤其成为重灾区,甚至出现了 AI 审稿的现象。专家担忧,若不加以控制,科学文献将被这些难以清除的虚假信息污染,最终可能导致一个由 AI 自我生成和验证的、与真实世界脱节的封闭知识体系。
科学管道正被堵塞
长期以来,科学期刊一直是知识传播的核心渠道,但如今它们正被 AI 生成的垃圾内容所堵塞。这个问题已经变得非常普遍,就连一些备受尊敬的期刊也未能幸免。例如,奥斯陆大学的心理学教授丹·金塔纳 (Dan Quintana) 在为一本知名期刊审稿时,发现其中引用了一篇自己署名但实际上并不存在的论文。
这一经历让他意识到:“当这种情况发生在你所尊重的期刊上时,你才会明白这个问题有多么普遍。”
学术出版的压力一直存在,但大型语言模型的出现让问题急剧恶化。AI 不仅被用于提升研究人员的写作效率,更被用来为欺诈性或劣质的研究披上看似合理的外衣,这使得筛选和审查工作变得异常困难和耗时。
工业化的学术欺诈
真正的威胁并非来自个别科学家偶尔使用 AI,而是来自系统性、大规模产出虚假论文的“论文工厂”。这些机构通过工业化流程牟利,其操作模式具有明显特征:
- 模板化生产: 大量论文使用相似的文本结构和措辞,进行规模化复制。
- 瞄准热门领域: 某些学科已成为重灾区,特别是那些社会高度关注的领域,例如癌症研究。造假者只需声称测试了某种蛋白质与肿瘤细胞的相互作用,只要结果不夸张,就很少有人会去验证。
- AI 研究自身也受害: 具有讽刺意味的是,AI 研究领域本身也未能幸免。由于机器学习领域的就业市场火热,发表论文的需求巨大,这催生了大量模板化的虚假研究。
AI 生成一切:从图像到审稿意见
AI 的造假能力不止于文字。它还能生成看似可信的科学图像,这比文字造假更具危害性。
- 荒谬的错误: 一篇论文中出现了一张由 AI 生成的、睾丸比例极不协调的老鼠插图,虽然荒谬,但竟通过了同行评审并得以发表。
- 更隐蔽的危险: 真正令人担忧的是,AI 能够制造出足以以假乱真的生物医学研究图像,如组织切片、显微镜图像或电泳凝胶图,而这些通常被用作关键证据。
更深层次的问题是,连学术监督体系本身也遭到了侵蚀。在一场顶级 AI 会议上,研究发现不仅有大量论文包含 AI 捏造的虚假引用,甚至超过一半的同行评审意见是在 AI 的辅助下完成的,其中约五分之一完全由 AI 生成。一些论文作者甚至在文中用白色字体隐藏信息,引导 AI 审稿人给出“开创性”等高度评价。
“死亡互联网”理论的科学版
这种污染正从期刊蔓延到预印本服务器(如 arXiv),这些平台是科学家快速分享最新研究的地方。自 ChatGPT 发布以来,这些服务器上的论文提交量急剧增加,其中混杂了大量 AI 生成的内容。
如果绝大多数论文都是伪造的,那么依靠社区筛选信息的前提就不复存在了。这“可能是一场生存危机”。
最终的风险是,科学文献可能会走向“死亡互联网”的结局——一个内容由机器人而非真人主导的空洞世界。
- 自我循环的虚假系统: AI 编写论文,再由 AI 进行评审,形成一个封闭的循环。
- 永久的知识污染: 这些虚假信息被用来训练新的 AI 模型,导致伪造的图像和引用被更深地嵌入我们的知识体系中。
- 无法清除的后果: 这种污染一旦形成,就可能像环境中的永久性化学物质一样,再也无法被彻底清除。