前 Meta 新闻主管 Campbell Brown 创办了 Forum AI,旨在解决大型语言模型在处理地缘政治、心理健康等“高风险”议题时存在的错误、偏见和信息遗漏问题。她认为,当前 AI 提供的信息质量远未达到行业宣传的水平。她的解决方案是通过领域专家制定评测基准,并训练 AI “裁判”进行大规模评估,目标是推动 AI 优先优化内容的真实性、诚实度和准确性。她相信,企业出于合规和责任压力,可能会成为推动这一变革的关键力量。
AI 信息质量的症结
Campbell Brown 曾是电视记者,后又担任 Facebook 首位新闻主管,她对信息准确性的追求贯穿其职业生涯。她认为,当前 AI 正像社交媒体一样,在重塑信息传播方式,但其中充满了问题。
- 糟糕的现状: Brown 在 ChatGPT 发布后不久就意识到,它将成为所有信息的入口,但“它做得并不好”。
- 个人担忧: 她甚至有一种生存危机感,想到“如果我们不解决这个问题,我的孩子们会变得非常愚蠢。”
- 被忽视的准确性: 让她最感失望的是,AI 公司似乎并未将准确性作为首要任务,而是更专注于编码和数学等更容易量化的问题。
当 Forum AI 开始评估主流模型时,结果并不乐观。她指出,AI 在处理复杂议题时,仍然充斥着大量的“垃圾和错误答案”。
Forum AI 的解决方案
为了解决这一问题,Brown 创办了 Forum AI,专注于评估模型在“高风险议题”上的表现。这些议题通常没有非黑即白的答案,而是模糊、微妙且复杂的。
其运作模式分为几个步骤:
- 寻找顶级专家: 招募全球在特定领域的顶尖专家,如地缘政治领域的 Niall Ferguson、Fareed Zakaria 等。
- 构建评测基准: 由专家们设计一套用于评估 AI 表现的基准和标准。
- 训练 AI 裁判: 训练专门的 AI 模型(裁判),使其评估结果能与人类专家的判断达到 90% 的共识。
- 大规模评估: 利用训练好的 AI 裁判,对市场上的各种大模型进行规模化的评估。
模型中发现的具体问题
评估揭示了当前 AI 模型中普遍存在的缺陷,这些缺陷不仅仅是简单的错误。
- 来源偏差: 发现谷歌的 Gemini 模型在与中国无关的话题上,引用中国官方宣传网站的内容。
- 政治偏见: 几乎所有模型都表现出明显的左倾政治偏见。
- 微妙的失败: 除了明显错误,还存在大量更隐蔽的问题,例如:
- 缺乏关键背景信息
- 遗漏重要观点
- 在不告知用户的情况下,使用“稻草人论证”来曲解对立观点
从社交媒体吸取教训
Brown 在 Facebook 的经历让她深刻体会到,当一个平台为了错误的指标进行优化时会发生什么。
我们尝试的很多事情都失败了。
她曾建立的事实核查项目已不复存在。她得到的教训是,为“互动率”而优化,对社会造成了伤害,让许多人变得更加信息闭塞。她希望 AI 能够打破这个循环,但目前仍是未知数。AI 公司可以选择迎合用户,也可以选择“给人们提供真实、诚实的内容”。
商业需求可能成为变革的推手
尽管听起来很理想化,但 Brown 认为,推动 AI 优化“真实性”的盟友可能来自一个意想不到的地方:企业用户。
- 责任与合规: 企业在使用 AI 进行信贷、借贷、保险和招聘决策时,非常关心法律责任问题。
- 需求驱动: 这些企业“会希望你优化模型以确保其正确性”,而不是仅仅提供用户想听的内容。
- 现有合规体系的不足: Brown 直言,目前的合规环境就是个“笑话”。例如,纽约市的 AI 招聘偏见法案实施后,超过一半的违规行为未能被审计发现。真正的评估需要领域专家,而不仅仅是“聪明的通才”。
最终,普通用户感受到的,是 AI 行业宏大叙事(“将改变世界”、“将治愈癌症”)与现实使用体验(“得到大量垃圾和错误答案”)之间的巨大鸿沟。这种信任赤字,在 Brown 看来,是完全合理的。