数据科学家的复仇

尽管大型语言模型（LLM）的兴起似乎挑战了数据科学家的核心地位，但他们的基本技能——如设计实验、调试系统、制定指标和深入分析数据——在构建有效的人工智能产品中变得比以往任何时候都更加重要。许多团队在评估AI系统时常陷入使用通用指标、信任未经核实的评估者、实验设计不当、忽视数据质量以及过度自动化等误区。真正的解决方案是回归数据科学的根本，通过亲自观察和理解数据，设计出针对具体应用的评估体系，从而真正驱动AI系统的改进。

AI浪潮下的角色转变

曾被誉为“21世纪最性感的职业”的数据科学家，其核心工作是构建预测模型、衡量因果关系和发现数据模式。然而，随着 基础模型API 的普及，许多团队可以直接集成AI功能，这让数据科学家和机器学习工程师感到了职业危机。

如果公司不再需要你来交付AI，那么这份工作是否还具有同样的价值，这是个合理的问题。

但事实并非如此。模型训练从来都不是工作的全部。真正的工作重心在于：

设计实验来测试AI在未知数据上的泛化能力。
调试随机性系统。
设计优秀的评估指标。

调用LLM的API并不会让这些核心工作消失。实际上，构建和维护一个能让AI模型有效运行的“测试框架”（Harness）本身就是数据科学的工作。

常见的评估陷阱与应对之道

当前，许多团队在构建AI系统时，由于缺乏数据科学背景，常常会陷入一些反复出现的评估陷阱。

第一个陷阱：通用指标

许多团队倾向于直接使用评估框架提供的现成指标，如“有用性得分”、“连贯性得分”等。这些指标听起来合理，但因为过于通用，对于诊断具体应用的问题毫无帮助。

数据科学家的做法： 他们不会直接采用现成指标。相反，他们会探索数据和调用记录（Traces），提出假设，找出系统中最常出错的地方，然后设计出能够衡量这些具体问题的指标。例如，将模糊的指标替换为“日历安排失败”或“未能成功转接人工”这类针对特定应用的指标。

本文最重要的一个建议就是：观察数据。如何观察需要练习，但这是投资回报率最高的活动，却常常被跳过。

第二个陷阱：未经核实的评估者

很多团队使用另一个LLM作为“裁判”来评估他们的AI系统是否有效，但很少有人能回答“你如何信任这个裁判？”

数据科学家的做法： 他们会将这个“裁判”视为一个分类器。要信任一个黑箱分类器，你需要用人工标注的数据来验证其可靠性。这包括划分训练集、开发集和测试集，并使用精确率和召回率等指标来衡量其表现，而不仅仅是准确率，因为准确率会掩盖低频失败模式的真实性能。

第三个陷阱：糟糕的实验设计

实验设计不当主要体现在两个方面：测试集构建和指标设计。

测试集构建： 许多团队仅通过提示LLM生成几十个测试查询来构建测试集，导致数据既通用又缺乏代表性。
数据科学家的做法： 首先分析真实的生产数据，根据假设确定关键维度，然后沿着这些维度生成植根于真实数据的合成数据，并注入边界情况。
指标设计： 团队倾向于将整个评分标准打包成一个LLM调用，并默认使用1-5分的李克特量表。
数据科学家的做法： 他们会降低复杂性，使每个指标都具有可操作性，并与业务成果挂钩。用具体的、二元的“通过/失败”标准取代主观的评分量表，因为后者只会隐藏模糊性，推迟对系统性能做出艰难决策。

第四个陷阱：劣质数据与标签

数据科学家天生就对任何事物持怀疑态度：他们不信任数据，不信任标签，不信任任何东西。

数据科学家的做法： 他们会坚持让领域专家来标注数据，并对标签保持怀疑。更重要的是，他们明白标注过程本身就是一种探索。人们在看到LLM的输出之前，通常不知道自己想要什么。标注过程能帮助团队明确真正重要的标准。

人们在看到LLM的输出之前，并不知道自己想要什么。标注过程本身就能揭示什么才是最重要的。

第五个陷阱：过度自动化

上述所有工作都需要大量的人力投入，因此人们总想将其自动化。LLM可以帮助编写一些模板代码，但它无法代替你观察数据。因为只有当你亲眼看到输出时，你才能真正定义你想要的东西。

回归数据科学的根本

仔细观察，所有这些陷阱的根源都是同一个：缺失了数据科学的基本功。

阅读记录和分类失败，就是 探索性数据分析。
验证LLM评估者，就是 模型评估。
构建代表性测试集，就是 实验设计。
让领域专家标注数据，就是 数据收集。

这些工作并不新鲜，只是换了名字。要解决这些问题，我们需要回归数据科学的本源，始终坚持——观察数据。