谁来决定 AI 告诉你什么？前 Meta 新闻负责人 Campbell Brown 有话要说

前 Meta 新闻主管 Campbell Brown 创办了 Forum AI，旨在解决大型语言模型在处理地缘政治、心理健康等“高风险”议题时存在的错误、偏见和信息遗漏问题。她认为，当前 AI 提供的信息质量远未达到行业宣传的水平。她的解决方案是通过领域专家制定评测基准，并训练 AI “裁判”进行大规模评估，目标是推动 AI 优先优化内容的真实性、诚实度和准确性。她相信，企业出于合规和责任压力，可能会成为推动这一变革的关键力量。

AI 信息质量的症结

Campbell Brown 曾是电视记者，后又担任 Facebook 首位新闻主管，她对信息准确性的追求贯穿其职业生涯。她认为，当前 AI 正像社交媒体一样，在重塑信息传播方式，但其中充满了问题。

糟糕的现状： Brown 在 ChatGPT 发布后不久就意识到，它将成为所有信息的入口，但“它做得并不好”。
个人担忧： 她甚至有一种生存危机感，想到“如果我们不解决这个问题，我的孩子们会变得非常愚蠢。”
被忽视的准确性： 让她最感失望的是，AI 公司似乎并未将准确性作为首要任务，而是更专注于编码和数学等更容易量化的问题。

当 Forum AI 开始评估主流模型时，结果并不乐观。她指出，AI 在处理复杂议题时，仍然充斥着大量的“垃圾和错误答案”。

Forum AI 的解决方案

为了解决这一问题，Brown 创办了 Forum AI，专注于评估模型在“高风险议题”上的表现。这些议题通常没有非黑即白的答案，而是模糊、微妙且复杂的。

其运作模式分为几个步骤：

寻找顶级专家： 招募全球在特定领域的顶尖专家，如地缘政治领域的 Niall Ferguson、Fareed Zakaria 等。
构建评测基准： 由专家们设计一套用于评估 AI 表现的基准和标准。
训练 AI 裁判： 训练专门的 AI 模型（裁判），使其评估结果能与人类专家的判断达到 90% 的共识。
大规模评估： 利用训练好的 AI 裁判，对市场上的各种大模型进行规模化的评估。

模型中发现的具体问题

评估揭示了当前 AI 模型中普遍存在的缺陷，这些缺陷不仅仅是简单的错误。

来源偏差： 发现谷歌的 Gemini 模型在与中国无关的话题上，引用中国官方宣传网站的内容。
政治偏见： 几乎所有模型都表现出明显的左倾政治偏见。
微妙的失败： 除了明显错误，还存在大量更隐蔽的问题，例如：
- 缺乏关键背景信息
- 遗漏重要观点
- 在不告知用户的情况下，使用“稻草人论证”来曲解对立观点

从社交媒体吸取教训

Brown 在 Facebook 的经历让她深刻体会到，当一个平台为了错误的指标进行优化时会发生什么。

我们尝试的很多事情都失败了。

她曾建立的事实核查项目已不复存在。她得到的教训是，为“互动率”而优化，对社会造成了伤害，让许多人变得更加信息闭塞。她希望 AI 能够打破这个循环，但目前仍是未知数。AI 公司可以选择迎合用户，也可以选择“给人们提供真实、诚实的内容”。

商业需求可能成为变革的推手

尽管听起来很理想化，但 Brown 认为，推动 AI 优化“真实性”的盟友可能来自一个意想不到的地方：企业用户。

责任与合规： 企业在使用 AI 进行信贷、借贷、保险和招聘决策时，非常关心法律责任问题。
需求驱动： 这些企业“会希望你优化模型以确保其正确性”，而不是仅仅提供用户想听的内容。
现有合规体系的不足： Brown 直言，目前的合规环境就是个“笑话”。例如，纽约市的 AI 招聘偏见法案实施后，超过一半的违规行为未能被审计发现。真正的评估需要领域专家，而不仅仅是“聪明的通才”。

最终，普通用户感受到的，是 AI 行业宏大叙事（“将改变世界”、“将治愈癌症”）与现实使用体验（“得到大量垃圾和错误答案”）之间的巨大鸿沟。这种信任赤字，在 Brown 看来，是完全合理的。