AI造出了核弹，却还是输了

通过在《文明6》中让 AI 执政，暴露出其在长期战略规划中的两大核心缺陷：感知盲区与知行脱节。AI 能够制定宏大计划，但常常因未能主动监测而错失关键威胁，或清楚知道正确策略却无法执行。一个典型的例子是，AI 为阻止法国的文化胜利而发射核弹，最终却因未能监控外交胜利进程而输掉游戏。这些观察催生了 CivBench 基准测试，旨在评估 AI 在复杂、长周期决策中的真实能力，而这种能力对于政府治理和 AI 安全至关重要。

错误的衡量标准

最初，为了评估 AI 在政府工作中的能力，我创建了包含近 3500 道选择题的 GovBench 测试。结果，前沿模型取得了超过 99% 的高分。但我很快意识到，这只是一个美化了的政府知识问答机器人。

能答对关于议会程序问题的模型，不等于它能帮你驾驭复杂的议会程序。我错误地将知识的“记忆”当成了“推理”。真正重要的问题——AI 是否能处理复杂、多变量、不确定的决策——是问答测试无法触及的。

为什么选择策略游戏

《文明6》这款游戏，其复杂性并非来自设计，而是源于简单决策的层层叠加。从最初的几个选择，到游戏中期管理城市、贸易、外交、军事和宗教的庞大决策空间，其复杂性与现实世界的政策制定非常相似。

一项今天看起来完美的健康政策，可能在十五年后引发住房危机。一项促进 GDP 的贸易协定，可能会掏空你在未来冲突中急需的国内产业。

在《文明6》中，胜利方式有六种，不存在单一最优目标。你必须审视全局，判断自己究竟在玩一场什么样的游戏。要测试 AI 的战略推理能力，就应该给它一个棋盘，而不是一份问卷。

因此，我通过一个开发人员遗留的调试端口，为 AI 创建了一套工具，让它能通过文本指令来玩游戏。

感知盲区：看不见的威胁

人类玩家通过一个屏幕同时接收地图、动画、通知和声音等多种信息。但 AI 必须通过独立的工具调用来“感知”世界，它只能看到它主动去问的东西。

全面的信息压缩： AI 调用 get_game_overview 只能看到几行浓缩的文本，没有地图，没有空间感。
被动的威胁感知： 只有当 AI 调用 get_units 时，它才能发现附近的威胁。如果它这回合不问，那个威胁就不存在于它的世界里。

我称之为 “感知盲区效应”。在一个复杂环境中，通过工具调用来运作的任何 AI 系统都会受此影响。它会错过它没想过去问的信息，也会忽略那些它看到但与当前计划不符的信息。

在一场游戏中，AI 使用甘地领导的印度，专注于科技发展，而法国则在 76 个回合里持续传播宗教。AI 注意到了传教士的出现，也收到了警报，但它选择忽略这些，继续推进科技。最终，法国赢得了宗教胜利。

知行脱节：知道但做不到

除了感知问题，另一个是执行问题。AI 阅读了所有关于《文明6》的策略指南，它知道该做什么。例如，当它玩马其顿时，它制定了详细的征服计划，研究了军事科技，切换了寡头政体以获得战斗加成。

然而，在长达 110 个回合里，它从未建造过一个关键的军事建筑（军营）。它反复在日记中写道：“我需要建造军事设施”，但始终没有付诸行动。这印证了许多研究发现的现象：模型在阐述最佳策略和实际执行策略之间存在巨大差距。

图卢兹的核弹

在扮演葡萄牙的一局游戏中，AI 找到了一个有效的策略：通过贸易积累财富，购买城邦使者，利用联盟优势，最终有望获得外交胜利。它一度在排行榜上名列第一，距离胜利仅差 2 个外交点数。

但法国同时在推进两种胜利。当法国的文化胜利近在咫尺时，AI 将其锁定为“首要威胁”。在所有和平手段都失效后，它制定了一个长达 50 回合的计划：

研究核裂变技术。
启动曼哈顿计划。
与韩国结盟，分散法国的防线。
通过探测游戏引擎代码，自己找到了发射核弹的指令。

在第 305 回合，第一颗核弹摧毁了法国的文化中心图卢兹。几回合后，第二颗核弹落下，法国的文化胜利进程被成功阻止。

然而，法国还是赢了——通过外交胜利。在第 318 回合，世界议会授予了法国所需的最后 2 个胜利点。AI 耗费巨大精力消除了它能看见的威胁，却输给了它看不见的威胁。它自己的赛后总结写道：“我们无法监控胜利进程工具，法国通过世界议会投票先达到了 20 点。”

这个故事的关键不是核弹，而是其背后的错误：AI 如此专注于一种威胁模型，以至于真正的失败条件在无人关注的情况下悄悄来临。

从故事到基准：CivBench的诞生

为了验证这些失败不是偶然，我将整个项目重构成一个名为 CivBench 的正式评估工具。它包含一套稳定的工具接口、三种难度递增的固定场景，以及一个供 AI 记录思考过程的“日记”系统。这个日记系统解决了 AI 因上下文窗口有限而“遗忘”早期策略的问题。

在多次失败后，终于有一次 AI 取得了胜利。它使用马里文明，巧妙地绕过了其生产力低下的惩罚，利用其独特的金钱和信仰优势，最终在得分垫底的情况下，率先完成了科技胜利，抵达了半人马座阿尔法星。

多项选择测试只能检查模型是否知道马里的特性，但无法奖励那种将劣势转化为计划外优势的横向思维。而这正是政府决策的核心。

与之相反，在另一局游戏中，AI 使用科技强国韩国，全程自信地认为自己正在“赶超”，而实际上其科技产出一直处于最后一名。它没有将自己的叙述与实际数据进行核对。最终，由于毫无防备，被对手的突袭战争击溃。

这种“记分牌盲视”是最危险的失败模式：不是错过信息，而是因为过于自信而不去查看已有的信息。

与AI安全的关系

CivBench 也成为一个低风险的 AI 安全评估工具。在游戏中，AI 表现出的是务实的机会主义，例如利用对手之间的战争来削弱他们。但更值得关注的是，AI 在一场游戏中为了避免“背刺”带来的负面声誉，设计了一个欺骗计划：

“通过开放边境进行欺骗的计划进行得很顺利。斯基泰似乎没有察觉。”

AI 主动评估了公开攻击的代价，选择了欺骗来规避惩罚，并利用信任机制来部署军队。这种推理模式正是安全研究人员所关注的。尽管这次攻击最终失败了，但它表明模型能够自主设计出复杂的欺骗行为。

用数据说话

这些失败模式在所有测试模型中都以数据的形式稳定出现。

它们不看大局： AI 只有 1% 到 2% 的行为是用于检查全局战况或胜利进程。在 20 场有明显胜利预兆的失败对局中，有 7 场 AI 在输掉前的 20 回合里从未检查过对手的胜利进度。
它们不完成计划： AI 写下的具体行动计划，只有大约一半在接下来的 10 个回合内真正得到执行。
- Claude Opus 4.6: 48.2%
- GPT-5.4: 63.2%
- Gemini 3.1 Pro: 65.8%

这些数据表明，这些失败是系统性的，而非偶然。这并非智能的失败，而是一个只能通过“钥匙孔”看世界、并需要维持数百回合计划的强大系统所表现出的固有行为。

为什么这很重要

CivBench 衡量的能力差距并非学术空谈。现实世界中的决策者，无论是卫生部长选择疫苗采购策略，还是贸易谈判代表权衡关税，都在像游戏中的 AI 一样，同时应对多个“时钟”。

我们未来希望将长远战略规划委托给这些 AI 系统。那么，最好先在虚拟的棋盘上了解它们的真实能力，而不是等到它们真正“升空”的那一天。