过去六个月,大语言模型的发展迎来了一个关键转折点,其核心并非顶级模型的频繁更迭,而是两个更具实质性的突破。首先,基于强化学习和工具链的 编程智能体 实现了质的飞跃,从偶尔可用变为 基本可靠,足以在日常工作中承担真实任务。其次,面向 本地设备的小型或开源模型 的能力也远超预期,在图像和动画生成等任务上展现出惊人的表现。
十一月的转折点
过去六个月是一个回顾的理想时间窗口,因为它恰好涵盖了 2025 年 11 月 这个关键的转折点。这个月,大语言模型领域,尤其是编码方面,发生了根本性的变化。
虽然顶级模型的称号在几家大公司之间几度易手,但这并非最重要的进展。
真正的消息是,编程智能体变得非常好用了。
编程智能体迈向实用
在 2025 年的大部分时间里,OpenAI 和 Anthropic 等公司一直致力于通过“可验证奖励的强化学习”(Reinforcement Learning from Verifiable Rewards)来提升模型生成代码的质量。
- 质量的飞跃: 到了 11 月,这项工作的成果开始显现。编程智能体从“偶尔能用”进化到了“基本上都能用”。
- 跨越障碍: 它们跨过了一道关键的质量门槛,使得开发者可以将其作为 日常驱动工具 来完成实际工作,而无需花费大量时间去修复其低级错误。
与此同时,一个当时还名不见经传的项目“Warelay”也悄然诞生,这预示着另一个重要趋势的开端。
个人 AI 助手的兴起
那个名为“Warelay”的项目在 12 月和 1 月经历了多次更名,最终在 2 月以“OpenClaw”的名字风靡全球。
- 个人 AI 助理: OpenClaw 是一种“个人 AI 助理”,并催生了一个通用术语“Claws”,用来指代这类工具。
- 新的数码宠物: 用户开始抢购 Mac Mini 来运行自己的“Claw”,有人开玩笑说,Mac Mini 成了这些新“数码宠物”的完美“鱼缸”。
- 多克博士的比喻: 一个贴切的比喻是 2004 年电影《蜘蛛侠2》中的章鱼博士(Doc Ock)。他的机械臂由 AI 驱动,只要抑制芯片完好就非常安全,一旦损坏,机械臂就会变得邪恶并失控。
本地模型的惊人表现
与编程智能体同步发展的,是那些可以在笔记本电脑或本地设备上运行的模型的崛起。虽然它们的能力不如前沿模型,但表现却 远远超出了人们的预期。
- 谷歌 Gemma 4 系列: 这是美国公司发布的最强大的开放权重模型之一。
- GLM-5.1: 中国 AI 实验室发布的 1.5TB 开源权重模型,虽然对硬件要求极高,但效果非常出色。
这些模型不仅能完成标准的测试,还能在更具创意的任务上带来惊喜。当被要求生成“一只在电动滑板车上的北弗吉尼亚负鼠”时,GLM-5.1 给出了近乎完美的动画结果。
“自黄昏起巡游联邦”(Cruising the commonwealth since dusk)
这句由 AI 生成的标语堪称点睛之笔,其他模型在类似任务上都相形见绌。这表明,小型或开源模型在特定领域的创造力和理解力上正变得越来越强。