在一场名为“Word Gem Puzzle”的 AI 编程竞赛中,来自中国的开源模型 Kimi K2.6 意外夺冠,击败了 GPT-5.5 和 Claude 等知名西方模型。其获胜的关键在于采用了主动滑动字母块的积极策略,这在大型棋盘上尤为有效。相比之下,许多西方模型因策略保守或仅能静态扫描而落后。这一结果表明,尽管单场比赛不能定义全部实力,但它是一个重要信号:开源模型与西方前沿模型之间的技术差距正在显著缩小。
比赛规则:滑动字母拼单词
这项挑战要求 AI 在一个充满字母的滑块棋盘上寻找并提交有效的英文单词。
- 目标: 通过将字母滑入唯一的空格中,在水平或垂直方向上形成单词。
- 计分: 计分规则鼓励寻找长单词,同时惩罚短单词。
- 长度少于七个字母的单词会被扣分。
- 长度超过七个字母的单词才能获得正分。
- 难度: 比赛设有不同尺寸的棋盘。棋盘越大,初始局面被打乱得越严重,这迫使模型必须通过主动滑动来重组字母并创造得分机会。
意外的比赛结果
比赛结果出乎多数人的预料,来自中国的开源或半开源模型占据了前两名。
- 冠军: Kimi K2.6 (来自中国月之暗面的开源模型)
- 亚军: MiMo V2-Pro (来自小米)
- 第三名: GPT-5.5
- 其他: Claude、Gemini、Grok 等西方顶尖模型均未进入前两名。
每一种来自西方前沿实验室的模型都排在了前两名之后。
策略决定成败
不同模型采取了截然不同的策略,这直接导致了最终的排名差异。
冠军 Kimi 的制胜之道:积极滑动
Kimi 的胜利归功于其积极进取的策略。
- 核心策略: Kimi 会持续计算哪一步滑动能够解锁价值最高(得分最高)的新单词,然后执行该移动。
- 实战表现: 这种“贪心”策略在小型、整齐的棋盘上效率不高。然而,在大型、混乱的棋盘上,当其他模型因找不到现成单词而停滞时,Kimi 依靠持续的滑动和重组能力,不断创造出新的得分机会,最终累积了全场最高的得分。
亚军 MiMo 的反向策略:静态扫描
MiMo 的策略与 Kimi 几乎完全相反,但同样取得了成功。
- 核心策略: 完全不滑动。它只在初始棋盘上扫描已存在的、长度超过七个字母的单词,然后一次性提交所有发现的结果。
- 实战表现: 这是一个“高风险、高回报”的策略。如果棋盘上恰好保留了完整的长单词,它能迅速清盘得分。如果棋盘被打乱得太厉害,它将一分不得。
失败的教训:无效的输出与灾难性表现
一些模型的表现揭示了它们在理解和执行复杂指令方面的缺陷。
- DeepSeek: 因持续发送格式错误的数据而几乎未能有效参赛,得分为零。
- Muse: 表现堪称灾难。它无视“短词扣分”的规则,疯狂提交了它能找到的所有单词,包括大量会被扣分的短词。 > 它的最终累计得分为 -15,309 分。一个仅仅连接到服务器但什么也不做的版本会得到零分,这比它实际参赛的表现要好上 15,309 分。
这表明,Muse 只是部分理解了任务(“找单词”),但完全没有理解计分规则中的惩罚机制,这对于在有惩罚机制的结构化任务中部署模型是一个重要警示。
这意味着什么?
虽然单场比赛的结果不能完全定义一个模型的综合能力,但它揭示了 AI 领域正在发生的重要转变。
- 策略多样性: Kimi(积极滑动)和 MiMo(静态扫描)采取了几乎相反的策略,但得分非常接近。这表明特定任务的设计和一定的运气成分也会影响排名。
- 最重要的信号: 最大的启示是,开源模型与西方前沿模型之间的能力差距正在迅速缩小。一年前,人们普遍认为这种差距是难以逾越的。
- 竞争格局的改变: Kimi K2.6 的表现证明,一个任何人都可以下载的开源权重模型,其能力已经非常接近业界顶尖的闭源模型。
当与前沿水平相差无几的模型可以免费获取并本地运行时,这与一年前的竞争格局完全不同。这次挑战是这一转变中的一个数据点。