一项由牛津大学主导的全球性研究系统评审了 445 个人工智能基准测试,发现许多用于评估大型语言模型能力与安全的测试缺乏科学严谨性。这些测试存在定义模糊和统计方法不足等问题,导致难以准确判断 AI 的真实进展和风险。为此,研究团队提出了八项改进建议和一个实用检查表,旨在提升 AI 评估的科学标准,从而支持更可靠的 AI 设计与监管。
AI 评估的核心困境
基准测试是衡量、比较和排序人工智能系统的标准化评估方法,它们几乎支撑着所有关于 AI 进步的论断。这些测试不仅引导着研究方向和市场竞争,也越来越多地被用于政策和监管框架中,例如欧盟的《人工智能法案》。然而,如果这些基准测试本身不科学,它们可能会给开发者和监管者提供关于 AI 能力和安全性的误导性信息。
“基准测试支撑了几乎所有关于 AI 进步的论断。但如果没有共同的定义和可靠的测量,就很难知道模型是真的在改进,还是仅仅看起来如此。” — Andrew Bean,研究报告主要作者
主要发现:评估体系的短板
研究团队在审查中发现了两个普遍存在的问题,这些问题严重影响了评估结果的可靠性。
- 缺乏统计严谨性: 在所审查的研究中,只有 16% 在比较模型性能时使用了统计方法。这意味着报告中所谓的模型性能差异或优越性,很可能仅仅是随机结果,而非真正的技术提升。
- 定义模糊或有争议: 大约一半的基准测试旨在衡量如“推理”或“无害性”这类抽象概念,但并未清楚地定义这些术语的含义。没有一个公认的、清晰的定义,就很难确保测试真的在衡量其声称要衡量的东西。
错误的评估如何误导我们
不严谨的测试会在实践中产生具体的误导性结果,以下是一些典型例子:
- 混淆的格式规则: 一个测试可能要求模型解决一个简单的逻辑谜题,但同时要求答案必须以一种非常复杂和特定的格式呈现。如果模型解对了谜题但在格式上失败,它的表现看起来会比实际更差。
- 脆弱的性能: 模型可能在简短的小学数学问题上表现出色,但只要稍微改变数字或措辞,它就会突然失败。这表明它可能只是记住了模式,而不是真正理解了问题。
- 夸大的能力声明: 如果一个模型在医学考试的选择题上得分很高,人们可能会声称它拥有“医生级别的专业知识”。但通过考试只是医生工作的一小部分,这种结论具有极大的误导性。
如何构建更可靠的基准测试
研究者强调,这些问题是可以解决的。他们借鉴心理测量学和医学等成熟领域的既定方法,提出了八项建议来提高 AI 基准测试的有效性。
核心建议包括:
- 定义与分离: 为被测量的概念提供一个精确、可操作的定义,并控制无关因素的干扰。
- 构建代表性评估: 确保测试项目能够代表真实世界的条件,并全面覆盖目标技能或行为的范围。
- 加强分析与论证: 使用统计方法来报告不确定性,进行稳健的比较;通过详细的错误分析来理解模型失败的原因;并论证为何该基准是衡量其预期目标的有效工具。
此外,团队还提供了一个名为 《构建效度检查表》 的实用工具,帮助研究人员、开发者和监管者在采信基准测试结果之前,评估其是否遵循了可靠的设计原则。