Anthropic 和智谱在同一天发布了各自最强的编程模型 Claude Sonnet 4.5 和 GLM-4.6。通过一系列对比测试,结果显示国产开源模型 GLM-4.6 在编码能力、推理效率和功能全面性上表现出色,不仅能完成复杂编程任务,而且响应迅速、价格低廉并支持中文。综合来看,GLM-4.6 已成为 Claude Sonnet 4.5 的有力替代品,标志着国产 AI 编程模型达到了国际领先水平。
一天之内,两大编程模型问世
9月30日,AI 编程领域迎来了两个重要的模型发布:
- Anthropic 公司 发布了 Claude Sonnet 4.5 模型。
- 智谱公司 发布了 GLM-4.6 模型。
这两个模型都代表了当前 AI 编程能力的最高水平,是程序员寻求 AI 生成代码时的首选工具。
各自的“最强”宣言
两家公司在发布时都对自己的模型给予了极高的评价。
Anthropic 宣称 Claude Sonnet 4.5 是:
"世界上最好的编码模型。它是构建复杂代理的最强大模型。它是使用计算机的最佳模型。它在推理和数学方面表现出显著的进步。"
智谱同样表示 GLM-4.6 实现了全面提升:
"我们再次突破大模型的能力边界。GLM-4.6 是我们最强的代码 Coding 模型……在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升。"
根据智谱公布的测试结果,GLM-4.6 在多个基准测试中表现优异,在部分榜单上甚至超过了 Claude Sonnet 4.5,并稳居国产模型首位。同时,它还非常节省 Token,成本为同类模型最低。
为何要比较 GLM-4.6 与 Claude?
这次比较不仅是技术上的较量,也具有很强的现实意义,尤其对于国内用户。
Claude Sonnet 4.5:
- 限制使用: Anthropic 限制中国用户使用,正常途径无法开通服务。
- 价格昂贵: 属于付费模型,百万 Token 的输入/输出价格分别为3美元和15美元。
- 语言支持: 缺乏完备的中文支持。
GLM-4.6:
- 完全开放: 国产模型,采取彻底的开源路线(MIT 许可证),代码完全公开。
- 价格低廉: Web 界面免费使用,API 调用套餐价格亲民(如每月20元)。
- 中文友好: 提供完备的中文文档和客服支持。
因此,测试的核心目的之一是验证 GLM-4.6 是否能成为 Claude Sonnet 的有效替代品。
测试一:运行代码仓库测试用例
此测试要求模型拉取一个 GitHub 代码仓库,并运行其中的测试用例。
GLM-4.6 成功完成了任务,整个过程包括拉取代码、安装依赖和执行命令,最终 278 个测试用例全部通过,耗时约18秒。其执行流程与 Claude Sonnet 基本一致。
测试二:完成复杂编程任务
这个测试要求模型修改一个现有项目,为其数据库添加新功能,并编写新的测试用例来验证修改。
GLM-4.6 表现出色,它不仅成功修改了脚本、增加了 API 和命令行接口,还编写并通过了新的测试用例。此外,它还生成了一个详细的修改说明文档。从最终结果来看,它与 Claude Sonnet 的完成度差异不大,都满足了所有要求。
测试三:生成 SVG 图像
这个测试考察模型的想象力和生成能力,要求它生成一个“鹈鹕骑自行车”的 SVG 图像。这是一个现实中不存在的场景。
两个模型都成功生成了图像。结果相当接近,都清晰地表达了“鸟”和“自行车”的元素。细节上,Claude 生成的鹈鹕特征(如鸟喙)更明显一些。
结论:国产模型的有力替代品
综合来看,GLM-4.6 是一个非常强大的国产模型,其编码能力确实达到了顶尖水平。
- 功能全面: 不仅限于编码,其他任务也能胜任。
- 性能优异: 响应速度快,能完成复杂指令。
- 性价比高: 价格远低于同类模型,对个人和企业都非常友好。
对于国内用户而言,GLM-4.6 不仅是一个可用的工具,更是一个可以替代 Claude Sonnet 的有力选择。