大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5

这篇内容对比了国产 MiniMax M2、智谱 GLM 4.6 和 Anthropic Claude Sonnet 4.5 三款编程大模型。通过代码运行、功能扩展和复杂推理三项测试,结果显示 M2 模型不仅性能优异,在用户体验和提供辅助信息方面也表现突出。其运行准确、价格低廉,具备很高的实用价值,值得开发者关注和使用。

背景:为何关注 MiniMax M2

近期,国产大模型公司 MiniMax 发布了其最新的旗舰模型 M2。尽管 MiniMax 公司相对低调,但 M2 模型发布后迅速引起了关注。

    • 专业认可:在 Artificial Analysis 的性能评测中,M2 排名世界第五,开源模型第一
    • 社区热度:在 HuggingFace 社区的热度榜和 OpenRouter 的全球调用量排名中,M2 都名列前茅。

鉴于其在编程能力上的突出表现,本文将其与国际上流行的 Claude Sonnet 4.5 和国内同样强大的 GLM 4.6 进行实战对比。

测试设置

本次测试直接在 MiniMax 的官方网页版(MiniMax Agent)上进行,该产品底层使用的就是 M2 模型。

    • 测试模型:MiniMax M2、智谱 GLM 4.6、Claude Sonnet 4.5。
    • 测试平台:MiniMax Agent 网页版。
    • 使用成本:网页版免费,API 调用目前处于免费期。未来定价为百万 tokens 输入/输出分别为 2.1元/8.4元,约为 Claude 价格的 8%。

测试一:代码理解与运行

此项测试旨在检验模型抓取代码仓库并运行测试用例的能力。

拉取代码仓库 https://github.com/simonw/llm,然后通过下面的命令运行测试用例。

pip install -e '.[test]'

M2 在内置的沙盒环境中成功运行了代码,并给出了完全正确的结果:通过了 466 个测试用例。

令人惊喜的是,M2 还主动提供了覆盖率分析,指出了测试用例覆盖了代码的哪些功能。这是在其他模型中未曾见过的辅助功能,极大地增强了结果的实用性。

测试二:代码生成与功能扩展

此项测试要求模型为一个现有应用增加新功能,涉及修改代码、数据库结构和编写新的测试用例,任务较为复杂。

    • 为 AI 对话应用 https://github.com/simonw/llm 的响应表添加一个 parentresponseid 列,将对话建模为树状结构。
    • 编写新的 pytest 测试用例来验证设计。
    • 编写一个 tree_notes.md 文件,记录设计思路。

在执行过程中,M2 展示了强大的自主解决问题的能力。当读取 GitHub 仓库失败时,它自动切换到第三方服务 deepwiki.com 来获取代码。这种智能切换服务的能力非常独特。

任务完成后,M2 不仅提供了详细的总结,描述了所有修改,还额外创建了:

    • 一个示例文件,演示新功能的用法。
    • 一个示例图,帮助理解修改后的对话结构。

这些超出预期的辅助产出,体现了其对用户非常友好的设计思路。

测试三:复杂推理与生成

此项测试使用经典的“鹈鹕骑自行车”场景,检验模型的理解和推理能力。

生成鹈鹕骑自行车的 SVG 图片。

M2 生成的图片有几个值得注意的优点:

    • 它主动添加了道路作为背景,使场景更完整。
    • 自行车的结构相对更完整,尽管缺少握把。

相比之下,M2 的结果在场景构建和物体结构上表现出了更强的推理能力。

结论:超出预期的友好与强大

MiniMax M2 的表现超出了预期。最吸引人的并非仅仅是正确的运行结果,而是它处理问题的方式。

它对用户很友好,会添加一些帮助理解的辅助结果,让你觉得很易用(accessible)也很易懂,这也从侧面增强了生成结果的可靠性。

综合来看,M2 的评测结果反映了其真实实力。考虑到其强大的性能、友好的用户体验以及极具竞争力的价格,强烈推荐开发者在接下来的工作中尝试使用它