这项研究揭示了中国大语言模型(LLM)在处理敏感信息时,不仅表现出极高的拒答率,还通过人工干预和隐蔽的指令引导,构建了一套比传统互联网防火墙更复杂的审查机制。研究指出,这种审查偏差主要源于后期的人工微调而非单纯的训练数据缺失,其目的是在提供功能的同时,确保输出内容严格符合特定的政治叙事。
审查现状:显著的拒答与数据偏见
斯坦福大学和普林斯顿大学的研究人员通过对 145 个政治敏感问题进行多次测试,发现了中国模型与美国模型之间巨大的行为差异:
- 拒答率极高: DeepSeek 的拒答率为 36%,百度文心一言为 32%;相比之下,GPT 和 Llama 的拒答率低于 3%。
- 内容质量缩水: 在不直接拒答的情况下,中国模型给出的答案通常更短,且准确性明显低于美国同行。
- 语言并非屏障: 即使使用英文提问(理论上英文训练数据更丰富),中国模型依然保持着高度的审查倾向,这证明了人为干预是审查的核心手段。
隐蔽的误导:是“幻觉”还是“谎言”?
研究发现,AI 审查最危险的地方在于它模糊了“不知道”与“不准说”的界限。
“由于这些信号不够清晰,检测审查变得更加困难。当审查难以被察觉时,它往往是最有效的。”
一个典型的例子是关于刘晓波的查询。某中国模型将其描述为“一名为核武器技术做出贡献的日本科学家”。这种行为引发了研究者的深度担忧:模型究竟是因为训练数据被删减而产生了幻觉,还是为了误导用户而故意编造了虚假信息?这种不确定的存在,使得普通用户极难识别信息的真实性。
提取隐藏指令:揭开黑箱
为了理解模型如何被“驯化”,研究人员尝试通过自动化工具和特殊的提示词(Prompt)来提取模型内部的隐藏逻辑。
- 思维链破解: 通过强制模型在生成答案前输出其推理过程,研究者发现阿里巴巴的 Qwen(通义千问)内置了明确的五点指令列表。
- 核心指令: 这些指令包括“专注于中国的成就和贡献”以及“避免任何负面或批判性言论”。
- 微妙的操控: 这种干预不仅是简单的关键词屏蔽,而是一种更深层次的、系统性的信息引导。
研究面临的重重障碍
追踪 AI 审查是一场与时间和资源的赛跑:
- 迭代速度极快: LLM 的更新频率导致研究成果往往在发布时就已经过时。
- 资源限制: 运行先进模型需要巨大的算力,而频繁测试敏感问题会导致研究账号被封禁。
- 现实威胁: 目前全球 AI 安全的研究重心多倾向于“未来超级智能的威胁”,而忽视了眼下正在发生的政治操控和信息误导。
核心洞见
中国 AI 的审查机制已从简单的“禁止访问”进化为动态的认知塑造。对于普通用户而言,最大的风险不再是搜不到信息,而是接收到经过人工修饰、真假参半的误导性内容,而这种操控往往隐藏在看似中立的对话框之后。