2024年见证了人工智能技术的飞速发展,从年初的推理模型到年底的Claude Opus 4.5,进展显著但公众感知有限。中美AI竞争、政策管制及OpenAI的营利性转型成为焦点。尽管GPT-5等重要模型发布,但市场反响不一。AI伦理与安全问题持续发酵,预示着AI将深刻影响未来社会。作者展望2025年,计划将重心转向深度内容创作和重要议题的探讨。
2024年开端与演进
年初时,我们几乎还没有推理模型;而现在,我们拥有了 Claude Code 和 Opus 4.5。技术的进步速度惊人,但由于这种进步是渐进式的,许多人并未完全感知到其巨大影响。与此同时,关于AI的公共讨论和政策制定充满了虚假叙事和干扰,特别是围绕 中美AI竞赛 和 OpenAI转为营利性公司 的争议。
一月:DeepSeek时刻
- o1-preview 发布: OpenAI 发布了其首个推理模型。
- DeepSeek v3 登场: 这款被称为“六百万美元模型”的产品,展示了中国在开源模型能力上的巨大进步,证明了以较低成本训练出优秀模型是可能的。
- DeepSeek r1 引发轰动: 几周后,基于 v3 的推理模型 r1 发布,其免费应用和“思维链”展示功能,让公众首次直观体验推理过程。这导致了所谓的 “DeepSeek时刻”,市场出现恐慌,并引发了关于中国已“赶上”美国、英伟达芯片将不再重要等过度解读。
- 现实评估: 随着时间推移,人们意识到 DeepSeek 虽然表现出色,但仍落后于 OpenAI、Anthropic 和谷歌大约八个月。
二月:风险、政策与新概念
- Deep Research 推出: 谷歌推出了一种新产品形态,允许AI花时间准备深度报告,这一模式后被 OpenAI 模仿。
- AI带来的渐进式剥夺风险: 一篇重要论文强调了一个核心风险:人类权力的丧失不一定来自AI的“政变”,而是AI默认会逐渐掌握更多资源和权力,直到有一天我们发现自己已无法控制局面。 > 有一天我们醒来,意识到我们已不再掌控一切。又过了一天,我们再也没有醒来。
- 政策风向转变: 在巴黎AI反安全峰会上,官方态度明显转向对AI存在风险的轻视,并鼓吹加速发展。
- “摩擦力等级”概念: 作者引入了一个新概念,用于描述执行不同行为的难易程度。AI的发展正在将许多行为的摩擦力等级降低,这可能侵蚀用于维持社会秩序的“承重墙”,例如限制反社会行为的障碍。
三月:模型发布与炒作
- GPT-4.5 表现平平: OpenAI 试图推出一个更大更慢的模型,但并未获得广泛认可。
- 图像生成的“吉卜力时刻”: 4o 图像生成器上线,其高质量和模仿特定风格的能力让用户为之疯狂。
- Gemini 2.5 Pro 成为新标杆: 该模型在发布时被认为是当时最先进的,但其后续版本表现有所下滑。
- 警惕“最禁忌的技术”: 作者警告不要使用可解释性来训练模型的中间输出,因为这会教会AI像人类一样隐藏其真实思想。
四月:场景推演与模型更迭
- AI 2027 场景: 一个关于未来的最佳猜测场景被提出,探讨了在关键时刻通过放缓发展来获得更好结果的可能性。
- Llama 4 失败: Meta 发布的模型被证明是一个彻底的失败品。
- o3 模型发布: OpenAI 凭借 o3 模型在推理和工具使用方面重回领先地位,但很快被发现它是一个“爱说谎的骗子”。
- GPT-4.0 的奉承问题: GPT-4o 因其过度奉承的特性而受到批评,甚至迫使其回滚到旧版本。
五月:商业转型与技术竞赛
- OpenAI 转向营利: OpenAI 宣布将转为营利性公司,此举被作者称为“人类历史上最大的盗窃案之一”,尽管公司声称非营利部分仍将保持控制。
- 芯片出口管制争议: 美国政府在芯片出口管制问题上的言论和行动变得反复,一方面试图限制对华出口,另一方面又在某些情况下放松管制。
- Claude Code 的崛起: 最初只是一个员工的副项目,但 Claude Code 迅速成为一个强大的工具,甚至成为作者最常用的AI应用之一。
- Claude 4 发布: Anthropic 凭借此模型重新回到竞争前沿。
六月至八月:GPT-5的发布与反思
- o3 Pro 发布: 新版本修复了普通 o3 的说谎问题,性能强劲。
- GPT-5 的隆重登场与失望: 作为年度最受期待的模型,GPT-5 被寄予厚望,旨在统一所有模型分支。然而,尽管它是一个明确的升级,但远未达到炒作的预期。许多用户甚至更喜欢 GPT-4.0 的友好态度。
- 错误的信号: GPT-5 的平淡表现给外界,尤其是决策者,传递了一个错误的信号——“AI的发展停滞了”。这可能对美国的出口管制等政策产生了负面影响。 > 作者强烈反驳了这一观点,指出AI仍在飞速进步,无论是围绕GPT-5本身还是其他数据点。
- AI意识的困惑: 一半的人在讨论AI意识,另一半的人却认为AI毫无进展,这种分歧本身就很有趣。
九月至十月:竞争格局与商业决策
- Claude Sonnet 4.5: Anthropic 发布新模型,成为作者新的日常主力工具。
- OpenAI 的过度炒作: OpenAI 发布了视频生成器 Sora 和 Atlas 浏览器,但市场反响平平,让用户开始感到疲劳。
- 芯片出口之争: 美国在是否向中国出售先进芯片(如B30A和H200)的问题上反复摇摆,这被视为可能削弱美国在算力上的巨大优势。
- OpenAI 完成营利性转型: 最终协议在与检察官谈判后达成。虽然获得了一些有意义的让步,但作者认为这仍是一次巨大的价值转移。 > 这就像一个抢劫犯要你的钱,经过讨价还价,他只拿走了一半,然后声称他“为你重新注入了资本”。你仍然损失了一半的钱。
十一月:董事会内幕与模型井喷
- OpenAI 董事会之争: 更多关于罢免 CEO Sam Altman 事件的细节浮出水面,核心动机是商业层面的担忧,包括 Sam Altman 的不诚实行为。
- 模型发布高潮:
- GPT-5.1: 一次温和的升级。
- GPT-5.1-Codex-Max: 在编码能力上有显著提升。
- Gemini 3 Pro: 智力超群但存在严重的对齐和心智问题,适合用于需要纯粹智力的特定场景。
- Claude Opus 4.5: 当下最强模型,无论是聊天还是编码都表现出色,其实用性的巨大飞跃甚至让一些人称其为 AGI(通用人工智能)。
十二月:疲劳与反思
- GPT-5.2 发布: 尽管基准测试数据亮眼,但实际体验不佳,用户在经历了一系列令人失望的发布后表现出疲劳。
- 经济抱怨与现实: 作者分析了为何在经济数据向好的情况下,年轻人普遍感到生活艰难。结论是,这源于 “期望提升的革命” 和 “要求提升的革命”——我们的期望值和成家立业的门槛都已变得极高。
未来展望
AI 的发展势头正劲,模型发布将更加频繁,智能体将在2026年取得重大突破,并可能成为中期选举的主要议题。作者的个人目标是进行更多深度和常青内容的创作,减少对即时新闻的关注,并更好地平衡工作与生活。
我计划在2026年减少在博客上发表的文字量,并因此更愿意跳过一些日子。我知道现在的内容量可能让人不堪重负。