“AI 民调”都是假民调

利用大型语言模型 (LLMs) 模拟民意调查（即“合成民调”）是一种新兴技术，但它并不能取代传统的民意调查。这种方法本质上是一个预测模型，它不产生任何新数据，只是基于现有信息重新组合和预测，因此存在固有的偏差和准确性问题。专家普遍认为，尽管合成样本在成本和速度上有优势，但它只能作为辅助工具，尤其在严肃的政治领域，其实际应用仍然非常有限且充满争议。

什么是“AI 民调”？

一些初创公司，如 Aaru 和 Electric Twin，正在推广一种被称为 合成样本 或 硅谷取样 的技术。

简单来说，他们使用大型语言模型（如 ChatGPT）来扮演特定的受访者角色，并模拟对民意调查问题的回答。

工作原理： 给 AI 一个设定好的人口统计特征（例如，居住在犹他州的、受过大学教育的白人女性，年收入7万美元），然后让它回答问题。
野心勃勃的宣传： Aaru 公司曾声称，他们将在两年内模拟整个地球的运作。然而，这些说法常常被认为是夸大其词。
实际应用： 尽管存在争议，这种技术正逐渐进入公众视野。例如，Axios 曾报道 Aaru 的一项“调查”，但未提及所谓的“受访者”其实是 AI。

“我不认为这是研究。在那个时候，你是在要求机器告诉你你已经相信的东西。” — 民主党民调专家 John Hagner

AI 无法取代真实民调

合成样本和真实民调之间存在一个根本性的区别。

民调是一个数据收集过程，其主要目的是获取关于人们真实想法和感受的新数据。而合成样本则完全不同，它不产生任何新数据。

它本质上是一个模型：你输入 LLM 的训练数据、人口统计学提示和其他信息，模型会输出一个关于真实民调可能会说什么的预测。这更接近于选举预测，而不是民意调查本身。

Electric Twin 的联合创始人 Ben Warner 将其比作工具箱里的工具：“我们一直有锤子和螺丝刀，现在我们有了一把锯子。但不要用锯子去干锤子的活。”

那么，这些模型准确吗？

关于合成民调准确性的看法两极分化。

一方面，Aaru 等公司声称他们的模型比传统民调“更快、更便宜，而且更准确”。然而，事实似乎并不支持这一说法。例如，在 2024 年大选前，Aaru 的模型预测哈里斯将在多个关键州获胜，但结果恰恰相反。

另一方面，许多专家和学术研究指出了这些模型的严重缺陷：

缺乏负面情绪： AI 模型很难像人类一样表现出种族主义、性别歧视或纯粹的负面情绪。
无法捕捉细微差别： 它们难以理解复杂的、看似矛盾的选民行为。例如，在 2024 年，亚利桑那州和内华达州的选民同时投票给特朗普，并支持扩大堕胎权利的法案。
预测偏差： 研究表明，LLMs 在预测中往往会产生过少的“不知道”回答，并且会系统性地高估政治人物的支持率。
群体差异过小： 模型预测的不同人群（如民主党和共和党）之间的观点差异通常小于现实情况。

来自专家的观点

资深选举分析师 Nate Silver 指出，AI 工具的出现反而增加了收集原创数据的比较价值。

如果一个亚群体中出现了观点转变，你是无法察觉到的。

他的核心论点是，模型只能根据已有的数据进行推断。如果某个群体的观点发生了真实的变化，只有通过直接与他们交谈（即进行真实的民意调查）才能发现。依赖模型只会让你错过这些关键的转变。

对于竞选团队而言，与其依赖 AI 模拟，不如投入更多资源去接触那些难以触及的真实选民，获取竞争对手所没有的独家数据。

当前应用与未来风险

目前来看，合成民调在政治领域的应用非常谨慎，其主要客户更多来自商业市场研究领域，如安永和麦当劳等公司。

然而，这项技术也带来了新的风险。一个更令人担忧的问题是，AI 代理可能被用来渗透和污染真实的在线调查。如果无法有效检测和过滤这些“机器人”受访者，在线民调的根基可能会被动摇。但解决方案绝不是用 AI 来取代所有真实的受访者。