2025评测新风向：打造人人可用的模型标杆

到 2025 年，大型语言模型的评估将不再仅仅追求基准测试的高分，而是转向构建“好用”而非“智能”的模型。未来的评估重点是模型作为助手的实际能力，考察其如何处理模糊指令、制定计划、调用工具、适应意外情况并避免捏造信息。评估方法将是多层次的，涵盖从单一能力测试到综合任务表现，再到动态环境适应性的全面考察，最终目标是开发出能有效整合各项能力以解决现实问题的模型。

测试特定能力

评估模型是否是一个好助手，需要一个多层次的方法。首先是在开发过程中测试其各项独立能力，这有助于在训练时获得信号或比较不同基础模型。

一个好的助手应该能够：处理指令中的模糊性，构建分步计划，正确识别所需资源，按计划执行而不分心，在需要时调用工具，并适应执行过程中的意外事件或新信息，同时保证不胡说八道。

知识过去的知识评测（如 MMLU）已趋于饱和或被污染，并暴露出问题，如题目不完整、答案错误、文化偏见等。新的评测集如 MMLU-Pro、GPQA 和 Humanity's Last Exam 质量更高，问题更复杂。然而，随着模型越来越多地连接到互联网等工具，这类“闭卷考试”正逐渐被“开卷考试”取代。

我们正在从闭卷考试转向开卷考试。就像在大学里，重点不再是你记住了什么，而是你在可以自由获取信息的情况下如何推理。
数学数学评测集不仅测试计算能力，也常被用作推理和逻辑能力的代表。传统的 GSM8K 和 MATH 数据集已饱和，新的替代品包括 AIME（美国数学奥林匹克竞赛题）、MATH-500（精选子集）和 Math-Arena（定期更新的竞赛题合集）。这些评测因每年更新，能有效检测模型是否“刷过题”。
代码助手需要具备编码能力来与工具交互。历史上的评测集如 HumanEval 和 MBPP 已经有了更强的扩展版本，如 EvalPlus。更重要的是，评测正在从解决孤立问题转向更复杂的场景：
- LiveCodeBench: 通过记录题目的创建日期来检测模型是否在训练中见过这些问题。
- AiderBench: 不仅测试解题，还测试代码编辑和重构能力。
- SWE-Bench: 测试模型解决真实 GitHub 项目中存在的问题，涉及跨文件编辑、长上下文推理等复杂能力。
长文本 为了在长对话中不丢失关键信息，模型需要良好的长上下文管理能力。
- “大海捞针”（NIAH） 测试已基本被解决。
- 更复杂的评测如 RULER、InfinityBench 和 HELMET 仍然具有区分度。
- 一些新颖的评测更具挑战性，例如 Novel Challenge（要求模型读完一本小说后回答问题）和 Kalamang 翻译任务（要求模型通过阅读语法书来翻译一种几乎没有网络资源的语言）。
指令遵循 IFEval 及其后续版本 IFBench 是一个巧妙的评测。它要求模型遵循具体的格式化指令（如关键词、标点、字数等），并且可以通过程序自动检查结果，从而避免了依赖模型作为裁判带来的偏见。这是功能正确性/单元测试类评估的典范。
工具调用 工具调用是让大语言模型成为“智能体”的关键一步。
- ToolBench 和其稳定的后续版本 StableToolBench 测试模型调用 API 的能力。
- BFCL 及其最新版本则覆盖了从单轮调用到多轮对话、网络搜索等更复杂的智能体行为。
- 针对新兴的 MCP（机器可调用协议）标准，出现了 MCPBench 和 MCP-Universe 等评测，它们连接到真实世界的服务（如维基百科、Reddit）来测试模型在现实场景中的工具使用能力。

衡量综合性能：助手任务

尽管单一能力测试很有价值，但现实世界中的助手表现取决于这些能力的组合与协调。一个模型可能推理能力很强，但在需要同时结合工具调用和长上下文管理时却会失败。

我们需要能够评估多种能力协同作用的测试。复杂的任务允许多种成功路径，评估的重点是最终结果是否正确，而不是模型具体使用了哪个工具。

真实世界信息检索
- GAIA: 开创了现代智能体评测，要求模型结合工具、推理和检索来回答现实生活中的问题。
- BrowseComp: 类似 GAIA，但问题是从结果反向构建的，难度各异，更能模拟真实搜索场景。
科学助手
- SciCode: 测试模型通过编写代码解决生物、化学等领域的实际科学问题。
- PaperBench: 要求模型根据高质量的机器学习论文复现相应的代码库。
- DABStep: 评估模型在处理真实、未公开的商业数据分析任务时的表现，每个问题都有标准答案，评估结果客观公正。

动态环境下的适应性：基于游戏的评估

与静态的助手任务不同，游戏环境能够“出其不意”，从而测试模型的适应性和动态决策能力。

游戏基准测试非常有趣，因为它们通常评估对变化环境的适应性，需要长程规划，而且最重要的是，大多数人都能理解。

逻辑与推理: ARC-AGI 这类基准测试类似于逻辑智商测试，要求模型在没有明确规则的情况下推断序列。
规划与记忆: 单人冒险游戏如 TextQuests 或生存游戏如 Crafter（类似《我的世界》）需要模型进行长远规划、记忆和回溯。
博弈与欺骗: 像扑克或狼人杀（Town of Salem）这样的竞争性游戏是测试逻辑、推理和欺骗能力的绝佳场所。例如，Claude Opus 4 模型在扮演诚实角色时表现不错，但在扮演需要欺骗的吸血鬼角色时则无法获胜。

通过评估打造真正有用的模型

评估的趋势已经从测试孤立的技能转向衡量模型在真实场景中协调多种能力的表现。这与我们构建“好用”模型的目标完全一致——即系统能够可靠地结合核心能力、使用工具，并出色地组织这一切来解决实际问题。

截至 2025 年 9 月的推荐评测方案：

核心能力（面向模型构建者）:
- 使用 MATH-500/AIME24、GPQA、IFEval、SWE-Bench 和 HELMET 等评测。
- 如果目标是工具使用，可选择 TauBench 或 BFCL。
核心能力（面向模型使用者/比较）:
- 使用 IFBench、HLE、MathArena、AiderBench、LiveCodeBench 和 MCP-Universe。
长程任务（衡量真实世界表现）:
- 使用 GAIA、DABStep、SciCode 或针对特定领域的评测。
游戏（测试鲁棒性和适应性）:
- 关注 ARC-AGI3，或使用 TextQuests 和 Town of Salem（尤其适合安全研究）。