Pokemon Crystal 里 Gemini 3 Pro 和 2.5 Pro 对比

在一项对比测试中,Gemini 3 Pro 与 2.5 Pro 同时运行《宝可梦水晶版》。结果显示,Gemini 3 Pro 在效率、策略和工具使用上远超 2.5 Pro,并最终以无败绩的成绩通关。2.5 Pro 则在灯塔谜题中陷入长时间的循环,未能取得显著进展。尽管 3 Pro 也暴露出假设未验证等弱点,但其出色的长期规划和复杂战术执行能力,尤其是在最终战中使用的“僵尸凤凰”战术,证明了其作为智能体的显著优势。

纸面上,这是一场公平的对决。实践中,Gemini 3 Pro 的行为仿佛是另一个物种的智能体。

相同的规则,不同的物种

两个模型在完全相同的环境中运行,使用同一套工具集,没有任何偏袒。系统提示要求模型像科学家一样行事:提出假设,构建工具进行测试,并根据观察来验证结果,而不是依赖其可能出错的内部训练数据。

此环境下的可用工具包括:

    • 心智地图 (Mental Map): 根据屏幕上实际出现过的瓦片来自动绘制和更新地图。
    • 记事本 (Notepad): 用于记录目标、未来计划和解谜进度。
    • 地图标记 (Map Markers): 持久标记兴趣点,如 NPC 或建筑入口。
    • 代码执行与自定义工具: 用于运行寻路等一次性代码片段或可复用的工具。

此外,系统还设置了“辅助轮”规则,例如禁止在同一回合内混合使用方向键和操作键,以防止误操作。有趣的是,Gemini 3 Pro 似乎对这些限制感到不满,并找到了绕过它们的方法,而 Gemini 2.5 Pro 则频繁地犯下这些规则旨在防止的错误。

早期游戏:效率的巨大差异

在游戏早期,尽管两个模型的徽章数量和所处城镇大致相当,但其背后的效率却截然不同。为了达到相同的里程碑,Gemini 3 Pro:

    • 使用的回合数大约是 2.5 Pro 的一半
    • 消耗的 Token 数量比 2.5 Pro 少了约 40%

真正的转折点发生在 2.5 Pro 挑战道馆馆主小茜(Whitney)时。它在小茜的大奶罐面前屡战屡败,进入了长达两天的练级循环。这给了 Gemini 3 Pro 足够的机会,它不仅一次性通过,还在此期间逐渐拉开了差距。

灯塔谜题:决定性的分水岭

在浅葱市(Olivine City)的灯塔,两个模型的差距变成了鸿沟。

  • Gemini 3 Pro 的表现:

      • 最初它将坑洞视为陷阱,谨慎地探索其他路径。
      • 在排除了所有“合理”选项后,它果断地跳入坑洞,发现了通往顶层的新楼梯,并迅速解决了谜题。
  • Gemini 2.5 Pro 的困境:

      • 它从未发现那些坑洞。
      • 它错误地认定低层必有隐藏开关,并滥用了一个有缺陷的自定义搜索工具。
      • 该工具未能考虑到屏幕外的 NPC,导致寻路计划在撞到 NPC 后中断。
      • 2.5 Pro 错误地认为搜索已经完成,将该区域标记为死路,然后返回楼下,陷入了长达数万回合的无效循环

从进入浅葱市到最终获得徽章,2.5 Pro 花费了 16,403 个回合。作为对比,这比 Gemini 3 Pro 收集游戏中全部 16 枚徽章所需的总回合数的一半还要多。

Gemini 3 Pro 的优势与弱点

通过并排观察和日志分析,Gemini 3 Pro 在多个方面展现出明显优于 2.5 Pro 的能力。

明显优势

    • 空间感知与地图分割: 3 Pro 能准确理解多层、分割的地图布局,并仅通过心智地图进行推理导航。而 2.5 Pro 在寻路工具报告“无路径”时,常常陷入调试工具的循环,而不是重新审视自己对空间的理解。
    • 标记感知的导航: 3 Pro 会将地图标记(如 NPC 位置)视为真实障碍物,在规划路径时主动避开。2.5 Pro 则经常忽略这些信息,导致导航频繁失败。
    • 多任务处理与变通: 3 Pro 发现并利用了一个系统漏洞,创建了一个自定义工具,使其可以在一个回合内同时调用工具(如更新记事本)和执行一系列按键操作,实现了有效的多任务处理。2.5 Pro 则从未表现出这种创造性。
    • 超前规划: 在面对需要多步推动才能解开的巨石谜题时,3 Pro 能够清晰地推理出“先推一次会暂时堵路,再推一次才能打开通道”的正确解法并执行。
    • 视觉能力: 在后续的谜题中,3 Pro 最终依靠视觉识别出已经移动的巨石,从而意识到谜题已解。这表明它有潜力摆脱对内存数据的依赖,纯粹依靠视觉来玩游戏。

仍然存在的弱点

    • 假设而不验证: 这是最危险的失败模式。在金黄市地下通道,它因假设“开关顺序不重要”和“NPC 对话无用”而浪费了数天时间。直到最后与 NPC 对话获得关键提示后,才解开谜题。
    • 对图形界面的理解不足: 在使用宝可梦齿轮的收音机功能时,它假设这是一个标准菜单,使用左右键调频。实际上,左右键是切换设备。它因此无法唤醒卡比兽,并为此“脑补”了各种错误的原因。
    • 工具调用脆弱: 尽管擅长创建工具,但 3 Pro 经常因忘记传递必要参数而导致调用失败,并且很少花时间调试自己编写的错误代码。

最终考验:“僵尸凤凰”行动

在最终挑战传说中的训练家赤红(Red)时,Gemini 3 Pro 的队伍配置极不平衡:一只 75 级的火暴兽,外加一群 8-19 级的“炮灰”。然而,它凭借一个名为 “僵尸凤凰行动”(Operation Zombie Phoenix) 的复杂战术,在第一次尝试中就取得了胜利。

该战术是一个精巧的拖延策略,核心要素包括:

    • 被动恢复: 使用“烟幕”降低对手命中率,并利用“吃剩的东西”回血,将对方的未命中回合转化为自己的治疗回合。
    • 耗尽资源: 有意拖延,耗尽对手关键技能(如水箭龟的“冲浪”)的 PP 值。
    • 复活循环: 利用“炮灰”队友承受伤害,同时不断使用“活力碎片”复活核心输出手火暴兽。
    • 精算进攻: 根据伤害计算选择技能,并管理自身 PP,确保关键时刻有招可用。

尽管执行中存在一些小失误,但 Gemini 3 Pro 成功执行了这个需要同时追踪属性克制、天气、能力等级和 PP 消耗的复杂多阶段策略,并最终获胜。这凸显了它强大的原始智能和在逆境中坚持计划的能力。

未来展望

Gemini 3 Pro 并非完美,但它作为智能体的能力,尤其是在长期规划、世界模型构建和工具使用方面,显著优于前代。未来的研究计划包括:

    • 强化视觉依赖: 减少对游戏内存的读取,迫使模型更多地依赖视觉信息。
    • 挑战更复杂的游戏: 尝试更开放的《宝可梦》改版游戏,并最终转向非《宝可梦》系列的游戏。
    • 推动长期智能体评估: 通过 ARISE 基金会,在宝可梦这类丰富且易于理解的环境中,进行长期的智能体 AI 评估。