大模型比拼：MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5

这篇内容对比了国产 MiniMax M2、智谱 GLM 4.6 和 Anthropic Claude Sonnet 4.5 三款编程大模型。通过代码运行、功能扩展和复杂推理三项测试，结果显示 M2 模型不仅性能优异，在用户体验和提供辅助信息方面也表现突出。其运行准确、价格低廉，具备很高的实用价值，值得开发者关注和使用。

背景：为何关注 MiniMax M2

近期，国产大模型公司 MiniMax 发布了其最新的旗舰模型 M2。尽管 MiniMax 公司相对低调，但 M2 模型发布后迅速引起了关注。

专业认可：在 Artificial Analysis 的性能评测中，M2 排名世界第五，开源模型第一。
社区热度：在 HuggingFace 社区的热度榜和 OpenRouter 的全球调用量排名中，M2 都名列前茅。

鉴于其在编程能力上的突出表现，本文将其与国际上流行的 Claude Sonnet 4.5 和国内同样强大的 GLM 4.6 进行实战对比。

测试设置

本次测试直接在 MiniMax 的官方网页版（MiniMax Agent）上进行，该产品底层使用的就是 M2 模型。

测试模型：MiniMax M2、智谱 GLM 4.6、Claude Sonnet 4.5。
测试平台：MiniMax Agent 网页版。
使用成本：网页版免费，API 调用目前处于免费期。未来定价为百万 tokens 输入/输出分别为 2.1元/8.4元，约为 Claude 价格的 8%。

测试一：代码理解与运行

此项测试旨在检验模型抓取代码仓库并运行测试用例的能力。

拉取代码仓库 https://github.com/simonw/llm，然后通过下面的命令运行测试用例。 pip install -e '.[test]'

M2 在内置的沙盒环境中成功运行了代码，并给出了完全正确的结果：通过了 466 个测试用例。

令人惊喜的是，M2 还主动提供了覆盖率分析，指出了测试用例覆盖了代码的哪些功能。这是在其他模型中未曾见过的辅助功能，极大地增强了结果的实用性。

测试二：代码生成与功能扩展

此项测试要求模型为一个现有应用增加新功能，涉及修改代码、数据库结构和编写新的测试用例，任务较为复杂。

为 AI 对话应用 https://github.com/simonw/llm 的响应表添加一个 parentresponseid 列，将对话建模为树状结构。

编写新的 pytest 测试用例来验证设计。

编写一个 tree_notes.md 文件，记录设计思路。

在执行过程中，M2 展示了强大的自主解决问题的能力。当读取 GitHub 仓库失败时，它自动切换到第三方服务 deepwiki.com 来获取代码。这种智能切换服务的能力非常独特。

任务完成后，M2 不仅提供了详细的总结，描述了所有修改，还额外创建了：

一个示例文件，演示新功能的用法。
一个示例图，帮助理解修改后的对话结构。

这些超出预期的辅助产出，体现了其对用户非常友好的设计思路。

测试三：复杂推理与生成

此项测试使用经典的“鹈鹕骑自行车”场景，检验模型的理解和推理能力。

生成鹈鹕骑自行车的 SVG 图片。

M2 生成的图片有几个值得注意的优点：

它主动添加了道路作为背景，使场景更完整。
自行车的结构相对更完整，尽管缺少握把。

相比之下，M2 的结果在场景构建和物体结构上表现出了更强的推理能力。

结论：超出预期的友好与强大

MiniMax M2 的表现超出了预期。最吸引人的并非仅仅是正确的运行结果，而是它处理问题的方式。

它对用户很友好，会添加一些帮助理解的辅助结果，让你觉得很易用（accessible）也很易懂，这也从侧面增强了生成结果的可靠性。

综合来看，M2 的评测结果反映了其真实实力。考虑到其强大的性能、友好的用户体验以及极具竞争力的价格，强烈推荐开发者在接下来的工作中尝试使用它。