为什么评估初创公司会失败（2025）

独立的 AI 评估（eval）创业公司之所以很少成功，主要是因为三方面的原因。首先，能够设计和执行高质量评估的顶尖人才往往会流向回报更高、影响力更大的领域，如模型后训练。其次，这类公司的目标客户难以界定：技术能力强的团队通常会自己进行评估，而技术能力弱的客户则需要的是完整的解决方案，而非评估数据。最后，公开的评估基准极易被大型模型公司通过“刷榜”或数据污染等方式针对性优化，从而失去其可信度。不过，安全评估领域是一个例外，因为它更适合由外部进行审计，并且可能受到未来法规的推动。

评估人才流向更高价值的领域

擅长评估的人才之所以会流向技术栈的其他部分，是因为做好评估所需的技能同样适用于模型后训练和应用开发，而这些领域能创造更多价值——也就是赚更多钱，并对模型开发有更直接的影响力。

价值上限: 评估所需的数据量远小于模型后训练所需的数据量。假设每个数据点的价值相等，那么通过为评估收集数据所创造的价值，其上限也远低于为后训练收集数据所创造的价值。
财务回报: 一个好的后训练项目可能带来数亿甚至数十亿美元的财务回报，而评估业务的收益则受限于其最大的合同金额，两者相去甚远。聪明的年轻研究者很清楚机会成本的概念。

一个典型的例子是，三位研究员辞去了在 Epoch AI 评估智能体（agent）的工作，转而创办了一家为智能体构建后训练工具的初创公司。

难以找到合适的客户

即使一家评估公司能够留住人才，它也很难找到客户。因为“希望基于模型 API 进行开发”和“无法自己评估模型”这两个条件的交集非常小。

技术能力强的客户: 任何正在进行模型后训练的客户，都肯定在自己构建评估体系。一个能理解某个基准测试得分提升 10% 背后含义的开发者，离自己动手跑这个测试也就不远了。
技术能力弱的客户: 如果客户分不清 GPT-4o 和 GPT-4.1 的区别，他们想要的是解决方案，而不是功能特性，更不是对 ELO 评分系统的解释。

简而言之，真正懂评估的开发者自己就能做，而需要外部帮助的客户又往往不关心评估本身。 评估创业公司似乎总是想把产品卖给开发者，但这个市场可能并没有想象中那么大。

来自大型实验室的“刷榜”压力

当一家评估创业公司克服了前两个障碍后，它还必须直面大型模型实验室的挑战。这些大公司有极强的动机去提升其在公开评估榜单上的排名，并会通过各种手段来优化分数。

古德哈特定律：当一个衡量标准成为目标时，它就不再是一个好的衡量标准。而评估创业公司能卖的，恰恰就是衡量标准。

一旦某个基准成为目标，模型的表现就会迅速提升，这背后既有良性的调整（如增加更多样化的数据），也有直接的作弊行为，比如用测试数据进行训练。

大型实验室使用的伎俩包括：

让员工在公共排行榜上为自家模型投票。
从评估创业公司挖走员工。
用免费算力换取更好的评估结果。
要求获取关于模型性能的私密洞察。

这种“刷榜”行为会使评估的可信度受到质疑。例如，有报告指出，Meta 在发布 Llama 4 之前，可能测试了 27 个不同的模型变体，以系统性地操纵排行榜。

安全评估：一个例外

当评估创业公司专门针对安全基准时，它们成功的可能性会更大。

人才动机: 致力于安全评估的研究者往往是出于意识形态而非金钱激励，因此他们不太可能因为更高的薪酬而转向其他领域。
外部审计需求: 安全评估的价值恰恰在于它由外部供应商提供，而非内部完成，这为第三方公司创造了机会。
政策驱动: 如果未来出台要求对模型进行外部审计的法规，安全评估业务将得到保障。

尽管安全评估仍可能面临“刷榜”的风险，但它具备的这些独有特性使其比其他类型的评估更具可行性。

其他观察

研究性评估的困境: 旨在向大型实验室出售研究性评估的创业公司同样会失败。因为评估是设定研究方向的关键，而大公司绝不会将设定自身研究议程的工作外包出去。
评估 vs. 评估工具: 出售评估服务和出售评估工具是两种截然不同的商业模式。前者是运营业务，利润率低；后者则是软件即服务（SaaS），利润率高。如果一个评估机构能够成功，其盈利模式很可能是通过提供软件或数据流访问等补充服务，而不是仅仅出售评估结果本身。