大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5
这篇内容对比了国产 MiniMax M2、智谱 GLM 4.6 和 Anthropic Claude Sonnet 4.5 三款编程大模型。通过代码运行、功能扩展和复杂推理三项测试,结果显示 M2 模型不仅性能优异,在用户体验和提供辅助信息方面也表现突出。其运行准确、价格低廉,具备很高的实用价值,值得开发者关注和使用。
背景:为何关注 MiniMax M2
近期,国产大模型公司 MiniMax 发布了其最新的旗舰模型 M2。尽管 MiniMax 公司相对低调,但 M2 模型发布后迅速引起了关注。
- 专业认可:在 Artificial Analysis 的性能评测中,M2 排名世界第五,开源模型第一。
- 社区热度:在 HuggingFace 社区的热度榜和 OpenRouter 的全球调用量排名中,M2 都名列前茅。
鉴于其在编程能力上的突出表现,本文将其与国际上流行的 Claude Sonnet 4.5 和国内同样强大的 GLM 4.6 进行实战对比。
测试设置
本次测试直接在 MiniMax 的官方网页版(MiniMax Agent)上进行,该产品底层使用的就是 M2 模型。
- 测试模型:MiniMax M2、智谱 GLM 4.6、Claude Sonnet 4.5。
- 测试平台:MiniMax Agent 网页版。
- 使用成本:网页版免费,API 调用目前处于免费期。未来定价为百万 tokens 输入/输出分别为 2.1元/8.4元,约为 Claude 价格的 8%。
测试一:代码理解与运行
此项测试旨在检验模型抓取代码仓库并运行测试用例的能力。
拉取代码仓库
https://github.com/simonw/llm,然后通过下面的命令运行测试用例。
pip install -e '.[test]'
M2 在内置的沙盒环境中成功运行了代码,并给出了完全正确的结果:通过了 466 个测试用例。
令人惊喜的是,M2 还主动提供了覆盖率分析,指出了测试用例覆盖了代码的哪些功能。这是在其他模型中未曾见过的辅助功能,极大地增强了结果的实用性。
测试二:代码生成与功能扩展
此项测试要求模型为一个现有应用增加新功能,涉及修改代码、数据库结构和编写新的测试用例,任务较为复杂。
- 为 AI 对话应用
https://github.com/simonw/llm的响应表添加一个parentresponseid列,将对话建模为树状结构。
- 编写新的
pytest测试用例来验证设计。
- 编写一个
tree_notes.md文件,记录设计思路。
在执行过程中,M2 展示了强大的自主解决问题的能力。当读取 GitHub 仓库失败时,它自动切换到第三方服务 deepwiki.com 来获取代码。这种智能切换服务的能力非常独特。
任务完成后,M2 不仅提供了详细的总结,描述了所有修改,还额外创建了:
- 一个示例文件,演示新功能的用法。
- 一个示例图,帮助理解修改后的对话结构。
这些超出预期的辅助产出,体现了其对用户非常友好的设计思路。
测试三:复杂推理与生成
此项测试使用经典的“鹈鹕骑自行车”场景,检验模型的理解和推理能力。
生成鹈鹕骑自行车的 SVG 图片。
M2 生成的图片有几个值得注意的优点:
- 它主动添加了道路作为背景,使场景更完整。
- 自行车的结构相对更完整,尽管缺少握把。
相比之下,M2 的结果在场景构建和物体结构上表现出了更强的推理能力。
结论:超出预期的友好与强大
MiniMax M2 的表现超出了预期。最吸引人的并非仅仅是正确的运行结果,而是它处理问题的方式。
它对用户很友好,会添加一些帮助理解的辅助结果,让你觉得很易用(accessible)也很易懂,这也从侧面增强了生成结果的可靠性。
综合来看,M2 的评测结果反映了其真实实力。考虑到其强大的性能、友好的用户体验以及极具竞争力的价格,强烈推荐开发者在接下来的工作中尝试使用它。