Synth Daily

谁来决定 AI 告诉你什么?前 Meta 新闻负责人 Campbell Brown 有话要说

前 Meta 新闻主管 Campbell Brown 创办了 Forum AI,旨在解决大型语言模型在处理地缘政治、心理健康等“高风险”议题时存在的错误、偏见和信息遗漏问题。她认为,当前 AI 提供的信息质量远未达到行业宣传的水平。她的解决方案是通过领域专家制定评测基准,并训练 AI “裁判”进行大规模评估,目标是推动 AI 优先优化内容的真实性、诚实度和准确性。她相信,企业出于合规和责任压力,可能会成为推动这一变革的关键力量。

AI 信息质量的症结

Campbell Brown 曾是电视记者,后又担任 Facebook 首位新闻主管,她对信息准确性的追求贯穿其职业生涯。她认为,当前 AI 正像社交媒体一样,在重塑信息传播方式,但其中充满了问题。

  • 糟糕的现状: Brown 在 ChatGPT 发布后不久就意识到,它将成为所有信息的入口,但“它做得并不好”。
  • 个人担忧: 她甚至有一种生存危机感,想到“如果我们不解决这个问题,我的孩子们会变得非常愚蠢。”
  • 被忽视的准确性: 让她最感失望的是,AI 公司似乎并未将准确性作为首要任务,而是更专注于编码和数学等更容易量化的问题。

当 Forum AI 开始评估主流模型时,结果并不乐观。她指出,AI 在处理复杂议题时,仍然充斥着大量的“垃圾和错误答案”。

Forum AI 的解决方案

为了解决这一问题,Brown 创办了 Forum AI,专注于评估模型在“高风险议题”上的表现。这些议题通常没有非黑即白的答案,而是模糊、微妙且复杂的。

其运作模式分为几个步骤:

  1. 寻找顶级专家: 招募全球在特定领域的顶尖专家,如地缘政治领域的 Niall Ferguson、Fareed Zakaria 等。
  2. 构建评测基准: 由专家们设计一套用于评估 AI 表现的基准和标准。
  3. 训练 AI 裁判: 训练专门的 AI 模型(裁判),使其评估结果能与人类专家的判断达到 90% 的共识
  4. 大规模评估: 利用训练好的 AI 裁判,对市场上的各种大模型进行规模化的评估。

模型中发现的具体问题

评估揭示了当前 AI 模型中普遍存在的缺陷,这些缺陷不仅仅是简单的错误。

  • 来源偏差: 发现谷歌的 Gemini 模型在与中国无关的话题上,引用中国官方宣传网站的内容。
  • 政治偏见: 几乎所有模型都表现出明显的左倾政治偏见
  • 微妙的失败: 除了明显错误,还存在大量更隐蔽的问题,例如:
    • 缺乏关键背景信息
    • 遗漏重要观点
    • 在不告知用户的情况下,使用“稻草人论证”来曲解对立观点

从社交媒体吸取教训

Brown 在 Facebook 的经历让她深刻体会到,当一个平台为了错误的指标进行优化时会发生什么。

我们尝试的很多事情都失败了。

她曾建立的事实核查项目已不复存在。她得到的教训是,为“互动率”而优化,对社会造成了伤害,让许多人变得更加信息闭塞。她希望 AI 能够打破这个循环,但目前仍是未知数。AI 公司可以选择迎合用户,也可以选择“给人们提供真实、诚实的内容”。

商业需求可能成为变革的推手

尽管听起来很理想化,但 Brown 认为,推动 AI 优化“真实性”的盟友可能来自一个意想不到的地方:企业用户

  • 责任与合规: 企业在使用 AI 进行信贷、借贷、保险和招聘决策时,非常关心法律责任问题。
  • 需求驱动: 这些企业“会希望你优化模型以确保其正确性”,而不是仅仅提供用户想听的内容。
  • 现有合规体系的不足: Brown 直言,目前的合规环境就是个“笑话”。例如,纽约市的 AI 招聘偏见法案实施后,超过一半的违规行为未能被审计发现。真正的评估需要领域专家,而不仅仅是“聪明的通才”。

最终,普通用户感受到的,是 AI 行业宏大叙事(“将改变世界”、“将治愈癌症”)与现实使用体验(“得到大量垃圾和错误答案”)之间的巨大鸿沟。这种信任赤字,在 Brown 看来,是完全合理的。