顶级 AI 会议被大量 AI 代写的同行评审“攻陷”

顶级人工智能会议 ICLR 的同行评审环节正面临由 AI 生成内容的严重冲击。一项针对近2万篇论文和超过7.5万份评审的分析显示,约21%的评审报告完全由 AI 生成,过半数含有 AI 使用痕迹。这些由 AI 生成的评审质量低下,存在反馈冗长模糊、引用错误等问题,已对部分论文的评审结果产生负面影响,引发了学术界的广泛担忧。为此,会议组织者已决定采取自动化工具进行审查,以维护学术评审的公正性。

学者察觉异常:冗长、模糊的评审意见

多位学者在社交媒体上表达了担忧,他们怀疑自己提交给机器学习顶级会议 ICLR 的论文遭遇了由人工智能(AI)生成的同行评审。这些评审的共同特点是存在 冗长模糊的反馈虚假的文献引用,以及一些不合常理的分析要求。

卡内基梅隆大学的 AI 研究员 Graham Neubig 是最早发现问题的人之一。他收到的评审报告:

“非常冗长,包含大量要点”,并要求进行一些“在典型的 AI 或机器学习论文中,评审人通常不会要求的非标准统计分析”。

由于难以证实自己的怀疑,Neubig 在网上悬赏,希望有人能扫描所有会议投稿和评审报告,以检测 AI 生成的文本。

数据揭示真相:AI 生成内容的惊人比例

纽约 Pangram Labs 公司的首席执行官 Max Spero 响应了 Neubig 的请求。他的团队开发了 AI 检测工具,并对 ICLR 会议的近2万份研究和7.5万份同行评审报告进行了全面筛查。分析结果证实了学者们的猜测,并揭示了问题的严重性:

    • 完全由 AI 生成的评审报告:约 21% (15,899份)。
    • 含有 AI 使用痕迹的评审报告:超过 50%。
    • 含有超过 50% AI 内容的论文稿件:9%。
    • 完全由 AI 生成的论文稿件:1%。

讽刺的是,Pangram Labs 将描述其检测模型的论文也投给了 ICLR 会议,而在收到的四份评审意见中,一份被标记为 完全由 AI 生成,另一份则被标记为 经 AI 轻微编辑

“令人深感沮丧”:AI 评审的实际影响

对于许多研究者来说,这份数据分析证实了他们的直觉。哥本哈根大学的计算机科学家 Desmond Elliott 表示,他收到的一份评审报告完全“没有抓住论文的要点”。他的博士生早就怀疑该评审由大语言模型(LLM)生成,因为它不仅错误地引用了论文中的数据,还使用了一些奇怪的表达方式。

Pangram 的分析发布后,Elliott 立即查询了自己论文的情况,结果发现那份可疑的评审报告确实被标记为 “完全由 AI 生成”。更糟糕的是,这份低质量的评审 给予了论文最低评分,使其处于“接受与拒绝的边缘”。

这令人深感沮丧。

会议组织方的应对:首次大规模面临的挑战

面对确凿的数据和研究社区的普遍担忧,ICLR 的会议组织者承认,这是该会议 首次大规模 面临此类问题。

康奈尔大学的计算机科学家、ICLR 高级项目主席 Bharath Hariharan 表示,会议组织方现在将 采用自动化工具 来评估提交的论文和评审意见是否违反了关于使用 AI 的政策。这一举措旨在恢复和维护学术同行评审过程的信任与公正。