一天之内，智谱和 Anthropic 都发了最强编程模型

Anthropic 和智谱在同一天发布了各自最强的编程模型 Claude Sonnet 4.5 和 GLM-4.6。通过一系列对比测试，结果显示国产开源模型 GLM-4.6 在编码能力、推理效率和功能全面性上表现出色，不仅能完成复杂编程任务，而且响应迅速、价格低廉并支持中文。综合来看，GLM-4.6 已成为 Claude Sonnet 4.5 的有力替代品，标志着国产 AI 编程模型达到了国际领先水平。

一天之内，两大编程模型问世

9月30日，AI 编程领域迎来了两个重要的模型发布：

Anthropic 公司 发布了 Claude Sonnet 4.5 模型。
智谱公司 发布了 GLM-4.6 模型。

这两个模型都代表了当前 AI 编程能力的最高水平，是程序员寻求 AI 生成代码时的首选工具。

各自的“最强”宣言

两家公司在发布时都对自己的模型给予了极高的评价。

Anthropic 宣称 Claude Sonnet 4.5 是：

"世界上最好的编码模型。它是构建复杂代理的最强大模型。它是使用计算机的最佳模型。它在推理和数学方面表现出显著的进步。"

智谱同样表示 GLM-4.6 实现了全面提升：

"我们再次突破大模型的能力边界。GLM-4.6 是我们最强的代码 Coding 模型……在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升。"

根据智谱公布的测试结果，GLM-4.6 在多个基准测试中表现优异，在部分榜单上甚至超过了 Claude Sonnet 4.5，并稳居国产模型首位。同时，它还非常节省 Token，成本为同类模型最低。

为何要比较 GLM-4.6 与 Claude？

这次比较不仅是技术上的较量，也具有很强的现实意义，尤其对于国内用户。

Claude Sonnet 4.5:
- 限制使用： Anthropic 限制中国用户使用，正常途径无法开通服务。
- 价格昂贵： 属于付费模型，百万 Token 的输入/输出价格分别为3美元和15美元。
- 语言支持： 缺乏完备的中文支持。
GLM-4.6:
- 完全开放： 国产模型，采取彻底的开源路线（MIT 许可证），代码完全公开。
- 价格低廉： Web 界面免费使用，API 调用套餐价格亲民（如每月20元）。
- 中文友好： 提供完备的中文文档和客服支持。

因此，测试的核心目的之一是验证 GLM-4.6 是否能成为 Claude Sonnet 的有效替代品。

测试一：运行代码仓库测试用例

此测试要求模型拉取一个 GitHub 代码仓库，并运行其中的测试用例。

GLM-4.6 成功完成了任务，整个过程包括拉取代码、安装依赖和执行命令，最终 278 个测试用例全部通过，耗时约18秒。其执行流程与 Claude Sonnet 基本一致。

测试二：完成复杂编程任务

这个测试要求模型修改一个现有项目，为其数据库添加新功能，并编写新的测试用例来验证修改。

GLM-4.6 表现出色，它不仅成功修改了脚本、增加了 API 和命令行接口，还编写并通过了新的测试用例。此外，它还生成了一个详细的修改说明文档。从最终结果来看，它与 Claude Sonnet 的完成度差异不大，都满足了所有要求。

测试三：生成 SVG 图像

这个测试考察模型的想象力和生成能力，要求它生成一个“鹈鹕骑自行车”的 SVG 图像。这是一个现实中不存在的场景。

两个模型都成功生成了图像。结果相当接近，都清晰地表达了“鸟”和“自行车”的元素。细节上，Claude 生成的鹈鹕特征（如鸟喙）更明显一些。

结论：国产模型的有力替代品

综合来看，GLM-4.6 是一个非常强大的国产模型，其编码能力确实达到了顶尖水平。

功能全面： 不仅限于编码，其他任务也能胜任。
性能优异： 响应速度快，能完成复杂指令。
性价比高： 价格远低于同类模型，对个人和企业都非常友好。

对于国内用户而言，GLM-4.6 不仅是一个可用的工具，更是一个可以替代 Claude Sonnet 的有力选择。