独立的 AI 评估(eval)创业公司之所以很少成功,主要是因为三方面的原因。首先,能够设计和执行高质量评估的顶尖人才往往会流向回报更高、影响力更大的领域,如模型后训练。其次,这类公司的目标客户难以界定:技术能力强的团队通常会自己进行评估,而技术能力弱的客户则需要的是完整的解决方案,而非评估数据。最后,公开的评估基准极易被大型模型公司通过“刷榜”或数据污染等方式针对性优化,从而失去其可信度。不过,安全评估领域是一个例外,因为它更适合由外部进行审计,并且可能受到未来法规的推动。
评估人才流向更高价值的领域
擅长评估的人才之所以会流向技术栈的其他部分,是因为做好评估所需的技能同样适用于模型后训练和应用开发,而这些领域能创造更多价值——也就是赚更多钱,并对模型开发有更直接的影响力。
- 价值上限: 评估所需的数据量远小于模型后训练所需的数据量。假设每个数据点的价值相等,那么通过为评估收集数据所创造的价值,其上限也远低于为后训练收集数据所创造的价值。
- 财务回报: 一个好的后训练项目可能带来数亿甚至数十亿美元的财务回报,而评估业务的收益则受限于其最大的合同金额,两者相去甚远。聪明的年轻研究者很清楚机会成本的概念。
一个典型的例子是,三位研究员辞去了在 Epoch AI 评估智能体(agent)的工作,转而创办了一家为智能体构建后训练工具的初创公司。
难以找到合适的客户
即使一家评估公司能够留住人才,它也很难找到客户。因为“希望基于模型 API 进行开发”和“无法自己评估模型”这两个条件的交集非常小。
- 技术能力强的客户: 任何正在进行模型后训练的客户,都肯定在自己构建评估体系。一个能理解某个基准测试得分提升 10% 背后含义的开发者,离自己动手跑这个测试也就不远了。
- 技术能力弱的客户: 如果客户分不清 GPT-4o 和 GPT-4.1 的区别,他们想要的是解决方案,而不是功能特性,更不是对 ELO 评分系统的解释。
简而言之,真正懂评估的开发者自己就能做,而需要外部帮助的客户又往往不关心评估本身。 评估创业公司似乎总是想把产品卖给开发者,但这个市场可能并没有想象中那么大。
来自大型实验室的“刷榜”压力
当一家评估创业公司克服了前两个障碍后,它还必须直面大型模型实验室的挑战。这些大公司有极强的动机去提升其在公开评估榜单上的排名,并会通过各种手段来优化分数。
古德哈特定律:当一个衡量标准成为目标时,它就不再是一个好的衡量标准。而评估创业公司能卖的,恰恰就是衡量标准。
一旦某个基准成为目标,模型的表现就会迅速提升,这背后既有良性的调整(如增加更多样化的数据),也有直接的作弊行为,比如用测试数据进行训练。
大型实验室使用的伎俩包括:
- 让员工在公共排行榜上为自家模型投票。
- 从评估创业公司挖走员工。
- 用免费算力换取更好的评估结果。
- 要求获取关于模型性能的私密洞察。
这种“刷榜”行为会使评估的可信度受到质疑。例如,有报告指出,Meta 在发布 Llama 4 之前,可能测试了 27 个不同的模型变体,以系统性地操纵排行榜。
安全评估:一个例外
当评估创业公司专门针对安全基准时,它们成功的可能性会更大。
- 人才动机: 致力于安全评估的研究者往往是出于意识形态而非金钱激励,因此他们不太可能因为更高的薪酬而转向其他领域。
- 外部审计需求: 安全评估的价值恰恰在于它由外部供应商提供,而非内部完成,这为第三方公司创造了机会。
- 政策驱动: 如果未来出台要求对模型进行外部审计的法规,安全评估业务将得到保障。
尽管安全评估仍可能面临“刷榜”的风险,但它具备的这些独有特性使其比其他类型的评估更具可行性。
其他观察
- 研究性评估的困境: 旨在向大型实验室出售研究性评估的创业公司同样会失败。因为评估是设定研究方向的关键,而大公司绝不会将设定自身研究议程的工作外包出去。
- 评估 vs. 评估工具: 出售评估服务和出售评估工具是两种截然不同的商业模式。前者是运营业务,利润率低;后者则是软件即服务(SaaS),利润率高。如果一个评估机构能够成功,其盈利模式很可能是通过提供软件或数据流访问等补充服务,而不是仅仅出售评估结果本身。