Synth Daily

“AI 民调”都是假民调

利用大型语言模型 (LLMs) 模拟民意调查(即“合成民调”)是一种新兴技术,但它并不能取代传统的民意调查。这种方法本质上是一个预测模型,它不产生任何新数据,只是基于现有信息重新组合和预测,因此存在固有的偏差和准确性问题。专家普遍认为,尽管合成样本在成本和速度上有优势,但它只能作为辅助工具,尤其在严肃的政治领域,其实际应用仍然非常有限且充满争议。

什么是“AI 民调”?

一些初创公司,如 AaruElectric Twin,正在推广一种被称为 合成样本硅谷取样 的技术。

简单来说,他们使用大型语言模型(如 ChatGPT)来扮演特定的受访者角色,并模拟对民意调查问题的回答。

  • 工作原理: 给 AI 一个设定好的人口统计特征(例如,居住在犹他州的、受过大学教育的白人女性,年收入7万美元),然后让它回答问题。
  • 野心勃勃的宣传: Aaru 公司曾声称,他们将在两年内模拟整个地球的运作。然而,这些说法常常被认为是夸大其词。
  • 实际应用: 尽管存在争议,这种技术正逐渐进入公众视野。例如,Axios 曾报道 Aaru 的一项“调查”,但未提及所谓的“受访者”其实是 AI。

“我不认为这是研究。在那个时候,你是在要求机器告诉你你已经相信的东西。” — 民主党民调专家 John Hagner

AI 无法取代真实民调

合成样本和真实民调之间存在一个根本性的区别。

民调是一个数据收集过程,其主要目的是获取关于人们真实想法和感受的新数据。而合成样本则完全不同,它不产生任何新数据

它本质上是一个模型:你输入 LLM 的训练数据、人口统计学提示和其他信息,模型会输出一个关于真实民调可能会说什么的预测。这更接近于选举预测,而不是民意调查本身。

Electric Twin 的联合创始人 Ben Warner 将其比作工具箱里的工具:“我们一直有锤子和螺丝刀,现在我们有了一把锯子。但不要用锯子去干锤子的活。”

那么,这些模型准确吗?

关于合成民调准确性的看法两极分化。

一方面,Aaru 等公司声称他们的模型比传统民调“更快、更便宜,而且更准确”。然而,事实似乎并不支持这一说法。例如,在 2024 年大选前,Aaru 的模型预测哈里斯将在多个关键州获胜,但结果恰恰相反。

另一方面,许多专家和学术研究指出了这些模型的严重缺陷:

  • 缺乏负面情绪: AI 模型很难像人类一样表现出种族主义、性别歧视或纯粹的负面情绪。
  • 无法捕捉细微差别: 它们难以理解复杂的、看似矛盾的选民行为。例如,在 2024 年,亚利桑那州和内华达州的选民同时投票给特朗普,并支持扩大堕胎权利的法案。
  • 预测偏差: 研究表明,LLMs 在预测中往往会产生过少的“不知道”回答,并且会系统性地高估政治人物的支持率。
  • 群体差异过小: 模型预测的不同人群(如民主党和共和党)之间的观点差异通常小于现实情况。

来自专家的观点

资深选举分析师 Nate Silver 指出,AI 工具的出现反而增加了收集原创数据的比较价值

如果一个亚群体中出现了观点转变,你是无法察觉到的。

他的核心论点是,模型只能根据已有的数据进行推断。如果某个群体的观点发生了真实的变化,只有通过直接与他们交谈(即进行真实的民意调查)才能发现。依赖模型只会让你错过这些关键的转变。

对于竞选团队而言,与其依赖 AI 模拟,不如投入更多资源去接触那些难以触及的真实选民,获取竞争对手所没有的独家数据

当前应用与未来风险

目前来看,合成民调在政治领域的应用非常谨慎,其主要客户更多来自商业市场研究领域,如安永和麦当劳等公司。

然而,这项技术也带来了新的风险。一个更令人担忧的问题是,AI 代理可能被用来渗透和污染真实的在线调查。如果无法有效检测和过滤这些“机器人”受访者,在线民调的根基可能会被动摇。但解决方案绝不是用 AI 来取代所有真实的受访者。