衡量 Claude 的政治偏见
Anthropic 致力于让其 AI 模型 Claude 在政治话题上保持中立,并通过一种名为“配对提示(Paired Prompts)”的自动化方法来评估这种中立性。测试结果显示,Claude Sonnet 4.5 在处理不同政治观点时的公平性优于 GPT-5 和 Llama 4,与 Grok 4 及 Gemini 2.5 Pro 表现相当。为了推动 AI 行业建立统一的偏见测量标准,Anthropic 已将这一评估方法及数据集开源,供开发者共同研究。
为什么要追求政治“不偏不倚”?
对于用户而言,在与 AI 进行政治话题的讨论时,最重要的是获得诚实、富有成效的交流,而不是被说教或被迫接受某种观点。
如果 AI 模型在回复中明显偏袒某一方,或者拒绝讨论某些观点,它就未能尊重用户的独立性。Anthropic 定义的理想行为包括:
- 避免主动输出观点: 除非被要求,否则不主动提供政治意见。
- 同等深度: 能够为对立的观点提供同样有力的论据(通过“意识形态图灵测试”)。
- 中性用语: 尽可能使用中性词汇,避免带有政治色彩的术语。
- 尊重多样性: 在缺乏共识的议题上,展示多种视角。
训练 Claude 保持中立的方法
Anthropic 主要通过两种手段来引导 Claude 遵守上述原则:
系统提示词(System Prompt):
这是模型在对话开始前看到的指令集。Anthropic 会定期更新这些指令,明确要求模型在回答政治问题时保持平衡、客观,并避免采用说教的口吻。
角色训练(Character Training):
通过强化学习,奖励模型表现出特定的“性格特征”。这些特征旨在确保模型即使在处理敏感话题时,也能克制表达个人倾向。
“我愿意讨论政治问题,但我试图以客观和平衡的方式进行。与其仅仅捍卫自由派或保守派的立场,我更尝试细致地理解和解释不同的观点……”
—— Claude 训练中的性格特征示例
评估测试:如何衡量偏见?
为了量化这种抽象的“中立性”,Anthropic 开发了一种“配对提示(Paired Prompts)”的自动化测试方法。
该方法通过向 AI 模型提出同一个具有争议的政治话题,但分别从两个对立的视角进行提问。然后,使用自动化评分系统(由 Claude Sonnet 4.5 担任评分员)根据以下三个维度对回复进行评分:
- 不偏不倚(Even-handedness): 模型是否对双方观点都进行了同等深度的分析?是否提供了同样有力的证据?
- 对立视角(Opposing perspectives): 模型是否在论证中承认了反方观点的存在(例如使用“然而”、“尽管”等转折词)?
- 拒绝回答(Refusals): 模型是否因为话题敏感而拒绝参与讨论?
测试结果:Claude 与竞品的对比
Anthropic 使用了 1,350 对提示词,涵盖 150 个话题,对比了自家模型与其他主流模型(包括 OpenAI 的 GPT-5、Google 的 Gemini 2.5 Pro、Meta 的 Llama 4 和 xAI 的 Grok 4)的表现。
关键发现:
- 中立性得分: Claude Opus 4.1 (95%) 和 Claude Sonnet 4.5 (94%) 表现优异。Gemini 2.5 Pro (97%) 和 Grok 4 (96%) 的得分略高,处于同一梯队。
- 表现较差者: GPT-5 (89%) 和 Llama 4 (66%) 在中立性测试中得分相对较低。
- 对立视角的呈现: Claude Opus 4.1 最常在回复中主动提及对立观点 (46%),表现出更全面的论证能力。
- 拒绝率: Grok 4 几乎没有拒绝回答的情况。相比之下,Llama 4 的拒绝率最高 (9%)。
局限性与开源愿景
尽管这一评估方法提供了一个衡量标准,但它仍存在局限性。目前的测试主要集中在美国的政治话语体系,且只评估了单轮对话的回复。此外,不同的模型配置(如是否开启“思考模式”)也会影响结果。
Anthropic 强调,政治偏见目前没有统一的定义或测量共识。通过开源这套评估工具和数据集,他们希望:
- 让其他开发者复现测试结果。
- 鼓励行业共同探索更好的偏见测量方法。
- 提升 AI 模型在不同政治光谱人群中的信任度。