Kimi K2.6 刚刚在一场编程挑战中击败了 Claude、GPT-5.5 和 Gemini

在一场名为“Word Gem Puzzle”的 AI 编程竞赛中，来自中国的开源模型 Kimi K2.6 意外夺冠，击败了 GPT-5.5 和 Claude 等知名西方模型。其获胜的关键在于采用了主动滑动字母块的积极策略，这在大型棋盘上尤为有效。相比之下，许多西方模型因策略保守或仅能静态扫描而落后。这一结果表明，尽管单场比赛不能定义全部实力，但它是一个重要信号：开源模型与西方前沿模型之间的技术差距正在显著缩小。

比赛规则：滑动字母拼单词

这项挑战要求 AI 在一个充满字母的滑块棋盘上寻找并提交有效的英文单词。

目标: 通过将字母滑入唯一的空格中，在水平或垂直方向上形成单词。
计分: 计分规则鼓励寻找长单词，同时惩罚短单词。
- 长度少于七个字母的单词会被扣分。
- 长度超过七个字母的单词才能获得正分。
难度: 比赛设有不同尺寸的棋盘。棋盘越大，初始局面被打乱得越严重，这迫使模型必须通过主动滑动来重组字母并创造得分机会。

意外的比赛结果

比赛结果出乎多数人的预料，来自中国的开源或半开源模型占据了前两名。

冠军: Kimi K2.6 (来自中国月之暗面的开源模型)
亚军: MiMo V2-Pro (来自小米)
第三名: GPT-5.5
其他: Claude、Gemini、Grok 等西方顶尖模型均未进入前两名。

每一种来自西方前沿实验室的模型都排在了前两名之后。

策略决定成败

不同模型采取了截然不同的策略，这直接导致了最终的排名差异。

冠军 Kimi 的制胜之道：积极滑动

Kimi 的胜利归功于其积极进取的策略。

核心策略: Kimi 会持续计算哪一步滑动能够解锁价值最高（得分最高）的新单词，然后执行该移动。
实战表现: 这种“贪心”策略在小型、整齐的棋盘上效率不高。然而，在大型、混乱的棋盘上，当其他模型因找不到现成单词而停滞时，Kimi 依靠持续的滑动和重组能力，不断创造出新的得分机会，最终累积了全场最高的得分。

亚军 MiMo 的反向策略：静态扫描

MiMo 的策略与 Kimi 几乎完全相反，但同样取得了成功。

核心策略: 完全不滑动。它只在初始棋盘上扫描已存在的、长度超过七个字母的单词，然后一次性提交所有发现的结果。
实战表现: 这是一个“高风险、高回报”的策略。如果棋盘上恰好保留了完整的长单词，它能迅速清盘得分。如果棋盘被打乱得太厉害，它将一分不得。

失败的教训：无效的输出与灾难性表现

一些模型的表现揭示了它们在理解和执行复杂指令方面的缺陷。

DeepSeek: 因持续发送格式错误的数据而几乎未能有效参赛，得分为零。
Muse: 表现堪称灾难。它无视“短词扣分”的规则，疯狂提交了它能找到的所有单词，包括大量会被扣分的短词。 > 它的最终累计得分为 -15,309 分。一个仅仅连接到服务器但什么也不做的版本会得到零分，这比它实际参赛的表现要好上 15,309 分。

这表明，Muse 只是部分理解了任务（“找单词”），但完全没有理解计分规则中的惩罚机制，这对于在有惩罚机制的结构化任务中部署模型是一个重要警示。

这意味着什么？

虽然单场比赛的结果不能完全定义一个模型的综合能力，但它揭示了 AI 领域正在发生的重要转变。

策略多样性: Kimi（积极滑动）和 MiMo（静态扫描）采取了几乎相反的策略，但得分非常接近。这表明特定任务的设计和一定的运气成分也会影响排名。
最重要的信号: 最大的启示是，开源模型与西方前沿模型之间的能力差距正在迅速缩小。一年前，人们普遍认为这种差距是难以逾越的。
竞争格局的改变: Kimi K2.6 的表现证明，一个任何人都可以下载的开源权重模型，其能力已经非常接近业界顶尖的闭源模型。

当与前沿水平相差无几的模型可以免费获取并本地运行时，这与一年前的竞争格局完全不同。这次挑战是这一转变中的一个数据点。