Synth Daily

ICML 2% 论文遭编辑部直接拒稿,只因作者在评审意见里用了 LLM

ICML 2026 组委会近期采取了严厉的纪律行动,因评审员违规使用大语言模型(LLM)而直接拒稿了 497 篇论文。这些评审员在明确承诺不使用 AI 的情况下,仍利用 AI 生成评审意见。组委会通过在论文 PDF 中植入“针对 AI 的隐藏陷阱”识别出了 506 名违规者,并强调此举是为了维护学术评审的诚信与社区成员之间的基本信任。

违规情况与处理结果

此次行动涉及范围广泛,反映了学术界对 AI 滥用的零容忍态度:

  • 大规模拒稿: 共有 497 篇论文被直接拒稿 (Desk Reject)。这些论文的作者在担任互惠评审员(Reciprocal Reviewer)时,违反了不使用 LLM 的承诺。
  • 违规规模: 506 名评审员被发现违规,涉及 795 份评审意见,约占会议总评审量的 1%。
  • 严厉处罚:
    • 所有被检测为 AI 生成的评审意见已被删除。
    • 如果一名评审员有超过一半的评审意见由 AI 生成,其本人将被移出评审池,且其所有评审意见均被作废。
    • 相关领域主席(AC)已被告知需寻找新的评审员来填补空缺。

“钓鱼”检测:如何抓到违规者?

组委会并未依赖准确率存疑的通用 AI 文本检测器,而是采用了一种物理“陷阱”技术:

  • 隐藏指令(水印): 在提交的论文 PDF 中植入了人类不可见、但 LLM 能够读取的隐藏指令
  • 词组陷阱: 隐藏指令会要求 LLM 在生成评审意见时,必须包含从 17 万个词汇库中随机抽取的两个特定词组。
  • 极低误判率: 这种特定词组组合出现的概率低于百亿分之一。如果评审意见中出现了这些词组,基本可以判定评审员直接将 PDF 喂给了 AI 并进行了机械化的复制粘贴
  • 人工复核: 所有的检测结果都经过了人工检查,以确保评审员不是因为偶然提到相关词汇而被误判。

规则背景:并不是不让用,而是不准骗

ICML 此次针对的并非 AI 本身,而是违背承诺的行为。会议提供了两种政策供评审员选择:

  • 政策 A(保守): 明确禁止使用任何 LLM。
  • 政策 B(开放): 允许使用 LLM 辅助理解论文、搜索资料或润色语言。

核心矛盾点: 此次被处罚的所有评审员,都是那些主动选择了“政策 A”(或表示两者皆可并被分配到 A 类),但随后却偷偷使用 AI 的人。

维护学术信任的底线

组委会表示,这并不是在评价 AI 评审的质量优劣,而是一个关于诚信的问题:

  • 诚信高于效率: 评审员在知情并同意规则后,公然违反规则,这破坏了同行评审制度赖以生存的基石。
  • 保护社区: 如果学术系统不再基于信任运作,那么整个评审过程将变得毫无意义。
  • 警示意义: 随着 AI 工具的普及,科研社区必须建立新的规则边界,并对违规行为采取果断行动。

在技术快速迭代的今天,我们最需要积极保护的是人与人之间的信任。如果我们无法在信任的基础上调整系统,系统很快就会失去价值。