五分钟看懂大语言模型过去六个月的变化

过去六个月，大语言模型的发展迎来了一个关键转折点，其核心并非顶级模型的频繁更迭，而是两个更具实质性的突破。首先，基于强化学习和工具链的 编程智能体 实现了质的飞跃，从偶尔可用变为 基本可靠，足以在日常工作中承担真实任务。其次，面向 本地设备的小型或开源模型 的能力也远超预期，在图像和动画生成等任务上展现出惊人的表现。

十一月的转折点

过去六个月是一个回顾的理想时间窗口，因为它恰好涵盖了 2025 年 11 月 这个关键的转折点。这个月，大语言模型领域，尤其是编码方面，发生了根本性的变化。

虽然顶级模型的称号在几家大公司之间几度易手，但这并非最重要的进展。

真正的消息是，编程智能体变得非常好用了。

编程智能体迈向实用

在 2025 年的大部分时间里，OpenAI 和 Anthropic 等公司一直致力于通过“可验证奖励的强化学习”（Reinforcement Learning from Verifiable Rewards）来提升模型生成代码的质量。

质量的飞跃： 到了 11 月，这项工作的成果开始显现。编程智能体从“偶尔能用”进化到了“基本上都能用”。
跨越障碍： 它们跨过了一道关键的质量门槛，使得开发者可以将其作为 日常驱动工具 来完成实际工作，而无需花费大量时间去修复其低级错误。

与此同时，一个当时还名不见经传的项目“Warelay”也悄然诞生，这预示着另一个重要趋势的开端。

个人 AI 助手的兴起

那个名为“Warelay”的项目在 12 月和 1 月经历了多次更名，最终在 2 月以“OpenClaw”的名字风靡全球。

个人 AI 助理： OpenClaw 是一种“个人 AI 助理”，并催生了一个通用术语“Claws”，用来指代这类工具。
新的数码宠物： 用户开始抢购 Mac Mini 来运行自己的“Claw”，有人开玩笑说，Mac Mini 成了这些新“数码宠物”的完美“鱼缸”。
多克博士的比喻： 一个贴切的比喻是 2004 年电影《蜘蛛侠2》中的章鱼博士（Doc Ock）。他的机械臂由 AI 驱动，只要抑制芯片完好就非常安全，一旦损坏，机械臂就会变得邪恶并失控。

本地模型的惊人表现

与编程智能体同步发展的，是那些可以在笔记本电脑或本地设备上运行的模型的崛起。虽然它们的能力不如前沿模型，但表现却 远远超出了人们的预期。

谷歌 Gemma 4 系列： 这是美国公司发布的最强大的开放权重模型之一。
GLM-5.1： 中国 AI 实验室发布的 1.5TB 开源权重模型，虽然对硬件要求极高，但效果非常出色。

这些模型不仅能完成标准的测试，还能在更具创意的任务上带来惊喜。当被要求生成“一只在电动滑板车上的北弗吉尼亚负鼠”时，GLM-5.1 给出了近乎完美的动画结果。

“自黄昏起巡游联邦”（Cruising the commonwealth since dusk）

这句由 AI 生成的标语堪称点睛之笔，其他模型在类似任务上都相形见绌。这表明，小型或开源模型在特定领域的创造力和理解力上正变得越来越强。