智谱新发布的开源旗舰模型 GLM-5 在一系列编程任务中与 Anthropic 的 Claude Opus 4.6 和 OpenAI 的 GPT-5.3-Codex 进行了对比测试。测试涵盖网页设计、3D 动画、游戏开发和框架转换等任务。结果显示,GLM-5 在系统逻辑和后端代码生成方面表现优异,用户体验良好,尤其在构建复杂系统和执行长程 Agent 任务上展现出强大实力,被认为是国产开源领域的顶尖选择。
GLM-5 简介
智谱新一代的旗舰模型 GLM-5 已正式发布,作为一个开源模型,它旨在对标顶尖的闭源模型,并在两个方面进行了特别强化。
复杂系统工程: GLM-5 不仅擅长生成前端页面,更注重处理后端任务、系统重构和深度调试。它具备强大的自我反思与纠错能力,能在编译或运行失败时自主分析错误并迭代修复,直至系统正常运行。
长程 Agent: 模型能够执行多阶段、长步骤的复杂任务。它可以自主拆分需求,自动化连续运行数小时,同时保持上下文的连贯和目标的一致性。
简而言之,GLM-5 的能力超越了简单的 UI 生成,可以用来构建系统级的大型复杂项目。
在大模型进入 Agent、大任务的时代,GLM-5 是你可以使用的开源选择。
测试方法
本次测试使用了 HuggingFace 布道师用于测试 Opus 4.6 和 GPT-5.3 的相同题目,以便直接对比 GLM-5 的表现。测试共包含四道题,覆盖了前端和后端编程任务。
网页设计测试
第一个测试要求 AI 重新设计一个信息堆叠的简陋网页,使其变得美观、易用且专业。
- GLM-5 的结果美观且专业,信息组织井井有条,并带有动画效果,在移动端也表现良好。
- Opus 4.6 的结果同样出色。
- GPT-5.3 的设计存在瑕疵,例如页眉不是粘性设计,在美观度上也不及前两者。
在这一轮中,GLM-5 和 Opus 4.6 表现更好。
3D 沙盒测试
第二个测试是生成一个用于教育目的的网页 3D 沙盒,用动画展示太阳系运动,并允许用户调整参数和添加天体。
- Opus 4.6 的动画效果最好。
- GLM-5 的操控面板设计不错,但动画缺少引力网格线。
- GPT-5.3 的动画网格线过于凌乱,操控面板也较为简单。
总体而言,这一轮的最佳选手是 Opus 4.6,其次是 GLM-5。
网页游戏
第三个测试是生成网页版游戏“愤怒的小鸟”。
- Opus 4.6 的还原度最高,游戏体验也最接近原作。
- GLM-5 的版本可以玩,但游戏性不足,弹跳效果不佳。
- GPT-5.3 生成的版本完全无法运行,小鸟弹不出去。
这一轮的优胜者显然是 Opus 4.6,GLM-5 表现其次。
Laravel 转为 Next.js
最后一个测试是将一个基于 PHP Laravel 框架的应用,转换为使用 JavaScript 的 Next.js 框架。
所有三个模型都成功完成了任务。但值得注意的是:
- GLM-5 和 GPT-5.3 的转换时间都在 5 分钟左右。
- Opus 4.6 花费了整整 20 分钟。
GLM-5 在转换过程中几乎没有遇到麻烦,并且贴心地自动安装了依赖、做好了脚本编译,让用户可以一键运行。虽然三个模型结果相似,但考虑到 GLM-5 的生成速度和顺畅的用户体验,它在这一轮中更胜一筹。
总结
经过测试,GLM-5 的编程表现可圈可点,完全可以与国外最新的旗舰模型同台竞技,在某些方面甚至能够胜出。即使在稍显逊色的地方,也多是细节问题,而非根本性的差距。
它在“复杂系统”和“长程任务”这两个强化点上确实表现出色。
它生成的系统逻辑和后端代码,可靠性不错,无论是生成时还是运行时,报错都不多。
总而言之,GLM-5 堪称开源领域的“系统架构师”模型,它从关注“前端审美”转向关注“系统工程能力”,是 Opus 4.6 与 GPT-5.3 的一个强大的国产开源替代品。