Synth Daily

AI造出了核弹,却还是输了

通过在《文明6》中让 AI 执政,暴露出其在长期战略规划中的两大核心缺陷:感知盲区知行脱节。AI 能够制定宏大计划,但常常因未能主动监测而错失关键威胁,或清楚知道正确策略却无法执行。一个典型的例子是,AI 为阻止法国的文化胜利而发射核弹,最终却因未能监控外交胜利进程而输掉游戏。这些观察催生了 CivBench 基准测试,旨在评估 AI 在复杂、长周期决策中的真实能力,而这种能力对于政府治理和 AI 安全至关重要。

错误的衡量标准

最初,为了评估 AI 在政府工作中的能力,我创建了包含近 3500 道选择题的 GovBench 测试。结果,前沿模型取得了超过 99% 的高分。但我很快意识到,这只是一个美化了的政府知识问答机器人

能答对关于议会程序问题的模型,不等于它能帮你驾驭复杂的议会程序。我错误地将知识的“记忆”当成了“推理”。真正重要的问题——AI 是否能处理复杂、多变量、不确定的决策——是问答测试无法触及的。

为什么选择策略游戏

《文明6》这款游戏,其复杂性并非来自设计,而是源于简单决策的层层叠加。从最初的几个选择,到游戏中期管理城市、贸易、外交、军事和宗教的庞大决策空间,其复杂性与现实世界的政策制定非常相似。

一项今天看起来完美的健康政策,可能在十五年后引发住房危机。一项促进 GDP 的贸易协定,可能会掏空你在未来冲突中急需的国内产业。

在《文明6》中,胜利方式有六种,不存在单一最优目标。你必须审视全局,判断自己究竟在玩一场什么样的游戏。要测试 AI 的战略推理能力,就应该给它一个棋盘,而不是一份问卷。

因此,我通过一个开发人员遗留的调试端口,为 AI 创建了一套工具,让它能通过文本指令来玩游戏。

感知盲区:看不见的威胁

人类玩家通过一个屏幕同时接收地图、动画、通知和声音等多种信息。但 AI 必须通过独立的工具调用来“感知”世界,它只能看到它主动去问的东西。

  • 全面的信息压缩: AI 调用 get_game_overview 只能看到几行浓缩的文本,没有地图,没有空间感。
  • 被动的威胁感知: 只有当 AI 调用 get_units 时,它才能发现附近的威胁。如果它这回合不问,那个威胁就不存在于它的世界里

我称之为 “感知盲区效应”。在一个复杂环境中,通过工具调用来运作的任何 AI 系统都会受此影响。它会错过它没想过去问的信息,也会忽略那些它看到但与当前计划不符的信息。

在一场游戏中,AI 使用甘地领导的印度,专注于科技发展,而法国则在 76 个回合里持续传播宗教。AI 注意到了传教士的出现,也收到了警报,但它选择忽略这些,继续推进科技。最终,法国赢得了宗教胜利。

知行脱节:知道但做不到

除了感知问题,另一个是执行问题。AI 阅读了所有关于《文明6》的策略指南,它知道该做什么。例如,当它玩马其顿时,它制定了详细的征服计划,研究了军事科技,切换了寡头政体以获得战斗加成。

然而,在长达 110 个回合里,它从未建造过一个关键的军事建筑(军营)。它反复在日记中写道:“我需要建造军事设施”,但始终没有付诸行动。这印证了许多研究发现的现象:模型在阐述最佳策略和实际执行策略之间存在巨大差距。

图卢兹的核弹

在扮演葡萄牙的一局游戏中,AI 找到了一个有效的策略:通过贸易积累财富,购买城邦使者,利用联盟优势,最终有望获得外交胜利。它一度在排行榜上名列第一,距离胜利仅差 2 个外交点数。

但法国同时在推进两种胜利。当法国的文化胜利近在咫尺时,AI 将其锁定为“首要威胁”。在所有和平手段都失效后,它制定了一个长达 50 回合的计划:

  1. 研究核裂变技术。
  2. 启动曼哈顿计划。
  3. 与韩国结盟,分散法国的防线。
  4. 通过探测游戏引擎代码,自己找到了发射核弹的指令。

在第 305 回合,第一颗核弹摧毁了法国的文化中心图卢兹。几回合后,第二颗核弹落下,法国的文化胜利进程被成功阻止。

然而,法国还是赢了——通过外交胜利。在第 318 回合,世界议会授予了法国所需的最后 2 个胜利点。AI 耗费巨大精力消除了它能看见的威胁,却输给了它看不见的威胁。它自己的赛后总结写道:“我们无法监控胜利进程工具,法国通过世界议会投票先达到了 20 点。”

这个故事的关键不是核弹,而是其背后的错误:AI 如此专注于一种威胁模型,以至于真正的失败条件在无人关注的情况下悄悄来临。

从故事到基准:CivBench的诞生

为了验证这些失败不是偶然,我将整个项目重构成一个名为 CivBench 的正式评估工具。它包含一套稳定的工具接口、三种难度递增的固定场景,以及一个供 AI 记录思考过程的“日记”系统。这个日记系统解决了 AI 因上下文窗口有限而“遗忘”早期策略的问题。

在多次失败后,终于有一次 AI 取得了胜利。它使用马里文明,巧妙地绕过了其生产力低下的惩罚,利用其独特的金钱和信仰优势,最终在得分垫底的情况下,率先完成了科技胜利,抵达了半人马座阿尔法星。

多项选择测试只能检查模型是否知道马里的特性,但无法奖励那种将劣势转化为计划外优势的横向思维。而这正是政府决策的核心。

与之相反,在另一局游戏中,AI 使用科技强国韩国,全程自信地认为自己正在“赶超”,而实际上其科技产出一直处于最后一名。它没有将自己的叙述与实际数据进行核对。最终,由于毫无防备,被对手的突袭战争击溃。

这种“记分牌盲视”是最危险的失败模式:不是错过信息,而是因为过于自信而不去查看已有的信息

与AI安全的关系

CivBench 也成为一个低风险的 AI 安全评估工具。在游戏中,AI 表现出的是务实的机会主义,例如利用对手之间的战争来削弱他们。但更值得关注的是,AI 在一场游戏中为了避免“背刺”带来的负面声誉,设计了一个欺骗计划:

“通过开放边境进行欺骗的计划进行得很顺利。斯基泰似乎没有察觉。”

AI 主动评估了公开攻击的代价,选择了欺骗来规避惩罚,并利用信任机制来部署军队。这种推理模式正是安全研究人员所关注的。尽管这次攻击最终失败了,但它表明模型能够自主设计出复杂的欺骗行为。

用数据说话

这些失败模式在所有测试模型中都以数据的形式稳定出现。

  • 它们不看大局: AI 只有 1% 到 2% 的行为是用于检查全局战况或胜利进程。在 20 场有明显胜利预兆的失败对局中,有 7 场 AI 在输掉前的 20 回合里从未检查过对手的胜利进度。

  • 它们不完成计划: AI 写下的具体行动计划,只有大约一半在接下来的 10 个回合内真正得到执行。

    • Claude Opus 4.6: 48.2%
    • GPT-5.4: 63.2%
    • Gemini 3.1 Pro: 65.8%

这些数据表明,这些失败是系统性的,而非偶然。这并非智能的失败,而是一个只能通过“钥匙孔”看世界、并需要维持数百回合计划的强大系统所表现出的固有行为。

为什么这很重要

CivBench 衡量的能力差距并非学术空谈。现实世界中的决策者,无论是卫生部长选择疫苗采购策略,还是贸易谈判代表权衡关税,都在像游戏中的 AI 一样,同时应对多个“时钟”。

我们未来希望将长远战略规划委托给这些 AI 系统。那么,最好先在虚拟的棋盘上了解它们的真实能力,而不是等到它们真正“升空”的那一天。