尽管大型语言模型(LLM)的兴起似乎挑战了数据科学家的核心地位,但他们的基本技能——如设计实验、调试系统、制定指标和深入分析数据——在构建有效的人工智能产品中变得比以往任何时候都更加重要。许多团队在评估AI系统时常陷入使用通用指标、信任未经核实的评估者、实验设计不当、忽视数据质量以及过度自动化等误区。真正的解决方案是回归数据科学的根本,通过亲自观察和理解数据,设计出针对具体应用的评估体系,从而真正驱动AI系统的改进。
AI浪潮下的角色转变
曾被誉为“21世纪最性感的职业”的数据科学家,其核心工作是构建预测模型、衡量因果关系和发现数据模式。然而,随着 基础模型API 的普及,许多团队可以直接集成AI功能,这让数据科学家和机器学习工程师感到了职业危机。
如果公司不再需要你来交付AI,那么这份工作是否还具有同样的价值,这是个合理的问题。
但事实并非如此。模型训练从来都不是工作的全部。真正的工作重心在于:
- 设计实验来测试AI在未知数据上的泛化能力。
- 调试随机性系统。
- 设计优秀的评估指标。
调用LLM的API并不会让这些核心工作消失。实际上,构建和维护一个能让AI模型有效运行的“测试框架”(Harness)本身就是数据科学的工作。
常见的评估陷阱与应对之道
当前,许多团队在构建AI系统时,由于缺乏数据科学背景,常常会陷入一些反复出现的评估陷阱。
第一个陷阱:通用指标
许多团队倾向于直接使用评估框架提供的现成指标,如“有用性得分”、“连贯性得分”等。这些指标听起来合理,但因为过于通用,对于诊断具体应用的问题毫无帮助。
- 数据科学家的做法: 他们不会直接采用现成指标。相反,他们会探索数据和调用记录(Traces),提出假设,找出系统中最常出错的地方,然后设计出能够衡量这些具体问题的指标。例如,将模糊的指标替换为“日历安排失败”或“未能成功转接人工”这类针对特定应用的指标。
本文最重要的一个建议就是:观察数据。如何观察需要练习,但这是投资回报率最高的活动,却常常被跳过。
第二个陷阱:未经核实的评估者
很多团队使用另一个LLM作为“裁判”来评估他们的AI系统是否有效,但很少有人能回答“你如何信任这个裁判?”
- 数据科学家的做法: 他们会将这个“裁判”视为一个分类器。要信任一个黑箱分类器,你需要用人工标注的数据来验证其可靠性。这包括划分训练集、开发集和测试集,并使用精确率和召回率等指标来衡量其表现,而不仅仅是准确率,因为准确率会掩盖低频失败模式的真实性能。
第三个陷阱:糟糕的实验设计
实验设计不当主要体现在两个方面:测试集构建和指标设计。
测试集构建: 许多团队仅通过提示LLM生成几十个测试查询来构建测试集,导致数据既通用又缺乏代表性。
数据科学家的做法: 首先分析真实的生产数据,根据假设确定关键维度,然后沿着这些维度生成植根于真实数据的合成数据,并注入边界情况。
指标设计: 团队倾向于将整个评分标准打包成一个LLM调用,并默认使用1-5分的李克特量表。
数据科学家的做法: 他们会降低复杂性,使每个指标都具有可操作性,并与业务成果挂钩。用具体的、二元的“通过/失败”标准取代主观的评分量表,因为后者只会隐藏模糊性,推迟对系统性能做出艰难决策。
第四个陷阱:劣质数据与标签
数据科学家天生就对任何事物持怀疑态度:他们不信任数据,不信任标签,不信任任何东西。
- 数据科学家的做法: 他们会坚持让领域专家来标注数据,并对标签保持怀疑。更重要的是,他们明白标注过程本身就是一种探索。人们在看到LLM的输出之前,通常不知道自己想要什么。标注过程能帮助团队明确真正重要的标准。
人们在看到LLM的输出之前,并不知道自己想要什么。标注过程本身就能揭示什么才是最重要的。
第五个陷阱:过度自动化
上述所有工作都需要大量的人力投入,因此人们总想将其自动化。LLM可以帮助编写一些模板代码,但它无法代替你观察数据。因为只有当你亲眼看到输出时,你才能真正定义你想要的东西。
回归数据科学的根本
仔细观察,所有这些陷阱的根源都是同一个:缺失了数据科学的基本功。
- 阅读记录和分类失败,就是 探索性数据分析。
- 验证LLM评估者,就是 模型评估。
- 构建代表性测试集,就是 实验设计。
- 让领域专家标注数据,就是 数据收集。
这些工作并不新鲜,只是换了名字。要解决这些问题,我们需要回归数据科学的本源,始终坚持——观察数据。