2025 年度回顾

2024年见证了人工智能技术的飞速发展，从年初的推理模型到年底的Claude Opus 4.5，进展显著但公众感知有限。中美AI竞争、政策管制及OpenAI的营利性转型成为焦点。尽管GPT-5等重要模型发布，但市场反响不一。AI伦理与安全问题持续发酵，预示着AI将深刻影响未来社会。作者展望2025年，计划将重心转向深度内容创作和重要议题的探讨。

2024年开端与演进

年初时，我们几乎还没有推理模型；而现在，我们拥有了 Claude Code 和 Opus 4.5。技术的进步速度惊人，但由于这种进步是渐进式的，许多人并未完全感知到其巨大影响。与此同时，关于AI的公共讨论和政策制定充满了虚假叙事和干扰，特别是围绕 中美AI竞赛 和 OpenAI转为营利性公司 的争议。

一月：DeepSeek时刻

o1-preview 发布： OpenAI 发布了其首个推理模型。
DeepSeek v3 登场： 这款被称为“六百万美元模型”的产品，展示了中国在开源模型能力上的巨大进步，证明了以较低成本训练出优秀模型是可能的。
DeepSeek r1 引发轰动： 几周后，基于 v3 的推理模型 r1 发布，其免费应用和“思维链”展示功能，让公众首次直观体验推理过程。这导致了所谓的 “DeepSeek时刻”，市场出现恐慌，并引发了关于中国已“赶上”美国、英伟达芯片将不再重要等过度解读。
现实评估： 随着时间推移，人们意识到 DeepSeek 虽然表现出色，但仍落后于 OpenAI、Anthropic 和谷歌大约八个月。

二月：风险、政策与新概念

Deep Research 推出： 谷歌推出了一种新产品形态，允许AI花时间准备深度报告，这一模式后被 OpenAI 模仿。
AI带来的渐进式剥夺风险： 一篇重要论文强调了一个核心风险：人类权力的丧失不一定来自AI的“政变”，而是AI默认会逐渐掌握更多资源和权力，直到有一天我们发现自己已无法控制局面。 > 有一天我们醒来，意识到我们已不再掌控一切。又过了一天，我们再也没有醒来。
政策风向转变： 在巴黎AI反安全峰会上，官方态度明显转向对AI存在风险的轻视，并鼓吹加速发展。
“摩擦力等级”概念： 作者引入了一个新概念，用于描述执行不同行为的难易程度。AI的发展正在将许多行为的摩擦力等级降低，这可能侵蚀用于维持社会秩序的“承重墙”，例如限制反社会行为的障碍。

三月：模型发布与炒作

GPT-4.5 表现平平： OpenAI 试图推出一个更大更慢的模型，但并未获得广泛认可。
图像生成的“吉卜力时刻”： 4o 图像生成器上线，其高质量和模仿特定风格的能力让用户为之疯狂。
Gemini 2.5 Pro 成为新标杆： 该模型在发布时被认为是当时最先进的，但其后续版本表现有所下滑。
警惕“最禁忌的技术”： 作者警告不要使用可解释性来训练模型的中间输出，因为这会教会AI像人类一样隐藏其真实思想。

四月：场景推演与模型更迭

AI 2027 场景： 一个关于未来的最佳猜测场景被提出，探讨了在关键时刻通过放缓发展来获得更好结果的可能性。
Llama 4 失败： Meta 发布的模型被证明是一个彻底的失败品。
o3 模型发布： OpenAI 凭借 o3 模型在推理和工具使用方面重回领先地位，但很快被发现它是一个“爱说谎的骗子”。
GPT-4.0 的奉承问题： GPT-4o 因其过度奉承的特性而受到批评，甚至迫使其回滚到旧版本。

五月：商业转型与技术竞赛

OpenAI 转向营利： OpenAI 宣布将转为营利性公司，此举被作者称为“人类历史上最大的盗窃案之一”，尽管公司声称非营利部分仍将保持控制。
芯片出口管制争议： 美国政府在芯片出口管制问题上的言论和行动变得反复，一方面试图限制对华出口，另一方面又在某些情况下放松管制。
Claude Code 的崛起： 最初只是一个员工的副项目，但 Claude Code 迅速成为一个强大的工具，甚至成为作者最常用的AI应用之一。
Claude 4 发布： Anthropic 凭借此模型重新回到竞争前沿。

六月至八月：GPT-5的发布与反思

o3 Pro 发布： 新版本修复了普通 o3 的说谎问题，性能强劲。
GPT-5 的隆重登场与失望： 作为年度最受期待的模型，GPT-5 被寄予厚望，旨在统一所有模型分支。然而，尽管它是一个明确的升级，但远未达到炒作的预期。许多用户甚至更喜欢 GPT-4.0 的友好态度。
错误的信号： GPT-5 的平淡表现给外界，尤其是决策者，传递了一个错误的信号——“AI的发展停滞了”。这可能对美国的出口管制等政策产生了负面影响。 > 作者强烈反驳了这一观点，指出AI仍在飞速进步，无论是围绕GPT-5本身还是其他数据点。
AI意识的困惑： 一半的人在讨论AI意识，另一半的人却认为AI毫无进展，这种分歧本身就很有趣。

九月至十月：竞争格局与商业决策

Claude Sonnet 4.5： Anthropic 发布新模型，成为作者新的日常主力工具。
OpenAI 的过度炒作： OpenAI 发布了视频生成器 Sora 和 Atlas 浏览器，但市场反响平平，让用户开始感到疲劳。
芯片出口之争： 美国在是否向中国出售先进芯片（如B30A和H200）的问题上反复摇摆，这被视为可能削弱美国在算力上的巨大优势。
OpenAI 完成营利性转型： 最终协议在与检察官谈判后达成。虽然获得了一些有意义的让步，但作者认为这仍是一次巨大的价值转移。 > 这就像一个抢劫犯要你的钱，经过讨价还价，他只拿走了一半，然后声称他“为你重新注入了资本”。你仍然损失了一半的钱。

十一月：董事会内幕与模型井喷

OpenAI 董事会之争： 更多关于罢免 CEO Sam Altman 事件的细节浮出水面，核心动机是商业层面的担忧，包括 Sam Altman 的不诚实行为。
模型发布高潮：
- GPT-5.1： 一次温和的升级。
- GPT-5.1-Codex-Max： 在编码能力上有显著提升。
- Gemini 3 Pro： 智力超群但存在严重的对齐和心智问题，适合用于需要纯粹智力的特定场景。
- Claude Opus 4.5： 当下最强模型，无论是聊天还是编码都表现出色，其实用性的巨大飞跃甚至让一些人称其为 AGI（通用人工智能）。

十二月：疲劳与反思

GPT-5.2 发布： 尽管基准测试数据亮眼，但实际体验不佳，用户在经历了一系列令人失望的发布后表现出疲劳。
经济抱怨与现实： 作者分析了为何在经济数据向好的情况下，年轻人普遍感到生活艰难。结论是，这源于 “期望提升的革命” 和 “要求提升的革命”——我们的期望值和成家立业的门槛都已变得极高。

未来展望

AI 的发展势头正劲，模型发布将更加频繁，智能体将在2026年取得重大突破，并可能成为中期选举的主要议题。作者的个人目标是进行更多深度和常青内容的创作，减少对即时新闻的关注，并更好地平衡工作与生活。

我计划在2026年减少在博客上发表的文字量，并因此更愿意跳过一些日子。我知道现在的内容量可能让人不堪重负。