Synth Daily

五分钟看懂大语言模型过去六个月的变化

过去六个月,大语言模型的发展迎来了一个关键转折点,其核心并非顶级模型的频繁更迭,而是两个更具实质性的突破。首先,基于强化学习和工具链的 编程智能体 实现了质的飞跃,从偶尔可用变为 基本可靠,足以在日常工作中承担真实任务。其次,面向 本地设备的小型或开源模型 的能力也远超预期,在图像和动画生成等任务上展现出惊人的表现。

十一月的转折点

过去六个月是一个回顾的理想时间窗口,因为它恰好涵盖了 2025 年 11 月 这个关键的转折点。这个月,大语言模型领域,尤其是编码方面,发生了根本性的变化。

虽然顶级模型的称号在几家大公司之间几度易手,但这并非最重要的进展。

真正的消息是,编程智能体变得非常好用了。

编程智能体迈向实用

在 2025 年的大部分时间里,OpenAI 和 Anthropic 等公司一直致力于通过“可验证奖励的强化学习”(Reinforcement Learning from Verifiable Rewards)来提升模型生成代码的质量。

  • 质量的飞跃: 到了 11 月,这项工作的成果开始显现。编程智能体从“偶尔能用”进化到了“基本上都能用”。
  • 跨越障碍: 它们跨过了一道关键的质量门槛,使得开发者可以将其作为 日常驱动工具 来完成实际工作,而无需花费大量时间去修复其低级错误。

与此同时,一个当时还名不见经传的项目“Warelay”也悄然诞生,这预示着另一个重要趋势的开端。

个人 AI 助手的兴起

那个名为“Warelay”的项目在 12 月和 1 月经历了多次更名,最终在 2 月以“OpenClaw”的名字风靡全球。

  • 个人 AI 助理: OpenClaw 是一种“个人 AI 助理”,并催生了一个通用术语“Claws”,用来指代这类工具。
  • 新的数码宠物: 用户开始抢购 Mac Mini 来运行自己的“Claw”,有人开玩笑说,Mac Mini 成了这些新“数码宠物”的完美“鱼缸”。
  • 多克博士的比喻: 一个贴切的比喻是 2004 年电影《蜘蛛侠2》中的章鱼博士(Doc Ock)。他的机械臂由 AI 驱动,只要抑制芯片完好就非常安全,一旦损坏,机械臂就会变得邪恶并失控。

本地模型的惊人表现

与编程智能体同步发展的,是那些可以在笔记本电脑或本地设备上运行的模型的崛起。虽然它们的能力不如前沿模型,但表现却 远远超出了人们的预期

  • 谷歌 Gemma 4 系列: 这是美国公司发布的最强大的开放权重模型之一。
  • GLM-5.1: 中国 AI 实验室发布的 1.5TB 开源权重模型,虽然对硬件要求极高,但效果非常出色。

这些模型不仅能完成标准的测试,还能在更具创意的任务上带来惊喜。当被要求生成“一只在电动滑板车上的北弗吉尼亚负鼠”时,GLM-5.1 给出了近乎完美的动画结果。

“自黄昏起巡游联邦”(Cruising the commonwealth since dusk)

这句由 AI 生成的标语堪称点睛之笔,其他模型在类似任务上都相形见绌。这表明,小型或开源模型在特定领域的创造力和理解力上正变得越来越强。