智谱AI发布了专为Agent应用设计的GLM-4.5系列旗舰模型,采用MoE架构,旨在以更高的参数效率、更低的成本和更快的速度,提供强大的综合智能。该模型原生集成了先进的推理、编码和Agent能力,并通过独特的“思考模式”来灵活应对不同复杂度的任务,在多项基准测试和真实世界场景中表现出色。
模型概览
GLM-4.5系列是为Agent应用量身打造的基础模型,均采用混合专家(MoE)架构。
- GLM-4.5: 总参数量355B,每次前向传递激活32B参数。
- GLM-4.5-Air: 设计更精简,总参数量106B,每次激活12B参数。
两个模型都经过了相似的训练流程:首先在15T token的通用数据上进行预训练,然后在代码、推理和Agent特定任务的数据集上进行微调。其上下文长度已扩展至 128k token,并通过强化学习进一步提升了各项性能。
GLM-4.5系列的目标是原生融合推理、编码和Agent能力,以满足复杂Agent应用的需求。
核心优势
GLM-4.5系列在性能、效率和成本方面实现了显著突破。
- 更高的参数效率: GLM-4.5的参数量仅为DeepSeek-R1的一半,却在多项标准测试中表现更优。在综合基准测试中,GLM-4.5 全球排名第二,国内排名第一,开源模型中排名第一。
- 更低的成本与速度: API调用成本极具竞争力,同时高速版在真实测试中生成速度超过 100 token/秒,兼顾了成本效益和用户交互体验。
真实世界表现
为了评估在实际Agent编码场景中的效果,我们将GLM-4.5集成到Claude Code中,并与其他模型进行了对比测试。
- 测试内容: 涵盖6大领域的52个编程和开发任务。
- 测试结果: GLM-4.5在 工具调用可靠性 和 任务完成率 方面表现出强大的竞争力,在多数场景下提供了与Claude 4 Sonnet相当的体验。
- 透明度: 所有52个测试问题及完整的Agent轨迹均已发布,供行业验证和复现。
核心能力与用途
模型的核心能力集中于编码技能,专注于满足真实世界的开发需求。
- 智能代码生成: 根据自然语言指令生成结构良好、可扩展的高质量代码。
- 实时代码补全: 支持Python、JavaScript、Java等主流语言。
- 自动错误修复: 帮助开发者快速定位并解决问题。
应用案例: 可以在1小时内完成重构级别的任务,或在5分钟内生成完整的产品原型。
“思考模式”详解
GLM-4.5提供了一个可开关的“思考模式”,以应对不同复杂度的任务。用户可以通过设置 thinking.type 参数来启用或禁用。
- 简单任务 (无需思考): 对于事实检索或分类等直接请求,模型会即时响应。
- 例如:Z.AI是何时成立的?
- 中等任务 (默认/部分思考): 对于需要分步处理或更深理解的常见请求,模型会灵活运用思考能力。
- 例如:比较从北京到上海乘坐飞机和高铁的优缺点。
- 困难任务 (最大化思考): 对于解决高级数学问题、网络问题或编码难题等复杂挑战,模型会充分调动其推理和规划能力。
- 例如:详细解释MoE模型中不同专家如何协同工作。