Synth Daily

知识工作的模拟体验

传统上,知识工作的质量很难被客观评估,因此人们常常依赖表面质量(如格式、错别字)作为评判标准。然而,大型语言模型(LLM)的出现打破了这一规则,因为它们擅长模拟高质量输出的外观,却不保证内容的真实性或实用性。这导致员工为了迎合评判标准而使用 LLM 追求表面上的完美,创造出一种“伪装式”的工作,最终陷入了因优化表面指标而忽视实质内容的困境,这正是古德哈特法则的体现。


依赖表面质量的评判标准

知识工作普遍存在一个难题:如果不投入巨大精力亲自重做一遍,就很难客观地判断其质量。

如何在不亲自重做一遍的情况下,判断产出是好是坏?

因此,每个人都严重依赖“代理指标”来做判断。想象一下,你收到一份市场分析报告,但发现其中存在一些问题:

  • 报告的日期是六个月前的,并非你要求的日期。
  • 段落中有明显的拼写错误
  • 一些图表标签错误,甚至被重复粘贴。

这份报告会被直接弃用。尽管这些表面瑕疵可能不影响核心结论,但它们足以让人做出判断:一个连表面工作都做不好的人,也不太可能在研究上投入足够的心力。

在这里,你使用的评判标准就是代理指标:写作本身的表面质量。这并非你最终关心的东西——你真正关心的是报告是否反映现实、能否帮助你做出正确决策。但要验证后者,成本太高;而检查表面质量则非常简单,并且它通常与实际质量有足够的关联性。

LLM 如何打破规则

在过去,代理指标能让那些错位的激励机制得到控制。但大型语言模型(LLM)的出现,彻底打破了这种平衡。

LLM 极其擅长模拟一种写作风格,但并不必然再现同等质量的工作。你可以让 AI 写一份市场分析报告,它的外观和阅读感受会像顶级咨询公司的专业人士所写。

  • 对于软件工程师:他们可以生成数千行代码,这些代码在粗略浏览时看起来质量很高。同事们会用 AI 进行代码审查,AI 会发现许多问题,然后这些问题会被“解决”。
  • 对于知识工作者:他们可以快速生成报告、邮件和分析,这些产出在格式和措辞上无懈可击。

工作的仪式感被完整保留,但其内在的质量却荡然无存。

我们建立了一个知识工作的模拟体验。

激励机制导致的恶性循环

现行的激励机制几乎注定了我们会有大麻烦。许多员工会理性地选择在他们被衡量的维度上做到最好。如果他们是根据工作的表面质量来被评判,那么他们的大部分“产出”将由 LLM 完成,这一点也不奇怪。

而 LLM 本身也面临同样的问题。它们的训练目标不是评估“答案是否真实”或“答案是否有用”,而是:

  • 答案是否可能出现在训练数据中?
  • 人类反馈标注员是否对答案感到满意?

我们正在优化 LLM,使其产出看起来像高质量的输出。我们拥有非常强大的优化器,也正在朝这个方向全力前进。

结果就是,我们花费数十亿美元创造出的系统,被用来表演一种工作的“伪装”。各个公司争相成为在 AI token 消耗排行榜上名列前茅。员工产出的 LLM 内容越多,任何人花在深入审视这些内容上的时间就越少。我们只剩下时间草草浏览,然后打上“看起来不错”(LGTM),接着打开下一个 AI 对话窗口。

我们已经将自己自动化进了古德哈特法则的陷阱里。