知识工作的模拟体验

传统上，知识工作的质量很难被客观评估，因此人们常常依赖表面质量（如格式、错别字）作为评判标准。然而，大型语言模型（LLM）的出现打破了这一规则，因为它们擅长模拟高质量输出的外观，却不保证内容的真实性或实用性。这导致员工为了迎合评判标准而使用 LLM 追求表面上的完美，创造出一种“伪装式”的工作，最终陷入了因优化表面指标而忽视实质内容的困境，这正是古德哈特法则的体现。

依赖表面质量的评判标准

知识工作普遍存在一个难题：如果不投入巨大精力亲自重做一遍，就很难客观地判断其质量。

如何在不亲自重做一遍的情况下，判断产出是好是坏？

因此，每个人都严重依赖“代理指标”来做判断。想象一下，你收到一份市场分析报告，但发现其中存在一些问题：

报告的日期是六个月前的，并非你要求的日期。
段落中有明显的拼写错误。
一些图表标签错误，甚至被重复粘贴。

这份报告会被直接弃用。尽管这些表面瑕疵可能不影响核心结论，但它们足以让人做出判断：一个连表面工作都做不好的人，也不太可能在研究上投入足够的心力。

在这里，你使用的评判标准就是代理指标：写作本身的表面质量。这并非你最终关心的东西——你真正关心的是报告是否反映现实、能否帮助你做出正确决策。但要验证后者，成本太高；而检查表面质量则非常简单，并且它通常与实际质量有足够的关联性。

LLM 如何打破规则

在过去，代理指标能让那些错位的激励机制得到控制。但大型语言模型（LLM）的出现，彻底打破了这种平衡。

LLM 极其擅长模拟一种写作风格，但并不必然再现同等质量的工作。你可以让 AI 写一份市场分析报告，它的外观和阅读感受会像顶级咨询公司的专业人士所写。

对于软件工程师：他们可以生成数千行代码，这些代码在粗略浏览时看起来质量很高。同事们会用 AI 进行代码审查，AI 会发现许多问题，然后这些问题会被“解决”。
对于知识工作者：他们可以快速生成报告、邮件和分析，这些产出在格式和措辞上无懈可击。

工作的仪式感被完整保留，但其内在的质量却荡然无存。

我们建立了一个知识工作的模拟体验。

激励机制导致的恶性循环

现行的激励机制几乎注定了我们会有大麻烦。许多员工会理性地选择在他们被衡量的维度上做到最好。如果他们是根据工作的表面质量来被评判，那么他们的大部分“产出”将由 LLM 完成，这一点也不奇怪。

而 LLM 本身也面临同样的问题。它们的训练目标不是评估“答案是否真实”或“答案是否有用”，而是：

答案是否可能出现在训练数据中？
人类反馈标注员是否对答案感到满意？

我们正在优化 LLM，使其产出看起来像高质量的输出。我们拥有非常强大的优化器，也正在朝这个方向全力前进。

结果就是，我们花费数十亿美元创造出的系统，被用来表演一种工作的“伪装”。各个公司争相成为在 AI token 消耗排行榜上名列前茅。员工产出的 LLM 内容越多，任何人花在深入审视这些内容上的时间就越少。我们只剩下时间草草浏览，然后打上“看起来不错”（LGTM），接着打开下一个 AI 对话窗口。

我们已经将自己自动化进了古德哈特法则的陷阱里。