AI #148:圣诞假期

2025年末,AI技术,特别是编码能力,正以惊人的速度发展。Anthropic发布的Claude Opus 4.5在长时间任务测试中表现出色,接近人类软件工程师的水平,预示着AI研发自动化即将到来。同时,OpenAI推出了专攻编码的GPT-5.2-Codex。在政策方面,纽约州签署了RAISE法案,推动AI安全立法,这被视为一个积极的信号。尽管AI在心理健康、媒体、法律和医疗等领域的实用价值日益显现,但其监管、伦理和社会接受度问题也愈发突出。整个行业对2026年AI的发展充满期待,但同时也对AI失控和价值观对齐等难题保持高度警惕。

语言模型展现出平实的效用

AI正在日常任务中展示其价值,主要通过自动化简单但有效的工作来辅助人类。

  • 心理健康干预: 基于GPT-4o的系统通过建议用户进行日记、感恩练习和正念等活动,在随机对照试验中显著提升了参与者的积极情绪、韧性和社交幸福感。这证明了AI作为一个支架,能有效促使人们执行已知的有益行为。
  • 专业辅助: 哲学家使用AI智能体来自动化研究中除核心思考之外的所有流程,使他们能更专注于思考本身。
  • 创意工具: 用户可以使用Claude Code按需在虚幻引擎中创建对象。

我们都知道写日记、练习正念和加强社交联系这些事情是有效的。如果一个基于大语言模型的脚手架能真正让人们去做这些事,那本身就是巨大的胜利。

Claude Opus 4.5 的惊人表现

Anthropic的Claude Opus 4.5在METR的编码任务时长基准测试中取得了巨大突破,其表现超出了所有预期。

  • 新的里程碑: 该模型达到了约4小时49分钟的50%任务时间范围,这意味着它能稳定完成需要近5小时人类工程师才能完成的复杂编码任务。这个结果非常出色,以至于测试机构METR承认他们现有的任务集已不足以准确评估其上限。
  • 增长趋势: 这一成就被视为AI能力呈指数级增长的又一证据。分析人士指出,尽管这只是一个数据点,但它符合自2025年第一季度以来观察到的加速趋势。这种加速可能源于AI开始在数据层面实现自我改进(RSI循环)。
  • 对未来的影响: 这一进展让研究人员相信,AI自动化研究很快就会实现。因此,许多人开始将研究重点转向“自动化对齐研究”,即利用AI来解决AI自身的对齐问题。

David Shor: 我所见过的关于AI发展时间线的最大分歧,在于人们是否使用像Claude Code这样的智能体编程工具。ChatGPT与一年前相比并没有那么大的不同,但智能体工具的能力正以每月指数级的速度变得更好。

足够先进的智能

人们常常低估智能的潜力,认为其上限接近人类水平。但这是一种“智能否定论”。在任何具体的、有限的任务中,都存在一个“足够先进的智能”水平。一旦达到这个水平,其输出就与理想中的“魔法”无异。

对于许多编码任务而言,Claude Opus 4.5正在接近这一水平。一名C++软件工程师表示,该模型在编写JIT编译器代码和汇编语言等高难度任务上从未失败。对他而言,他不再需要更“聪明”的模型,只需要更便宜、更快、拥有更大上下文窗口的版本。

这或许反映了一种想象力的局限。当前的任务是围绕人类的能力设计的。一个足够聪明的面包师可以做出很棒的面包,但一个智慧得多的面包师可能会创造出全新的、令人兴奋的东西。

监管的探索:纽约州RAISE法案

纽约州州长签署了RAISE法案,这是美国首个重要的AI安全法案,为全国范围内的AI监管树立了标杆。

BREAKING: 州长 @KathyHochul 刚刚签署了RAISE法案,这是我提出的全国首个AI安全法案——这是一场重大胜利,我们将利用AI的最大潜力,并保护美国人免受其最坏的伤害。

尽管在最终版本中,该法案为迎合行业游说而做出了一些妥协,削弱了部分条款,但它仍然被视为一个重要的胜利。它表明,尽管面临来自科技巨头和行业游说团体的巨大压力,州政府仍有能力推进有意义的AI安全立法。这一事件预示着未来在全国范围内,围绕AI监管的博弈将更加激烈。

AI带来的社会挑战

随着AI能力的增强,其社会影响和公众认知问题也日益凸显。

  • 公众的普遍误解: 大多数人对AI的看法仍然是“它并不真正起作用”,认为它只是一个充满无用“废料”和侵犯知识产权的巨大泡沫。这种看法导致人们在模型表现未达预期时,会迅速宣布“AI扩展已死”。
  • 对工作的冲击: 一名高级律师发现,一个AI模型在30秒内生成的上诉状比他花一天半写的还要好。这打破了法律工作不可替代的幻觉,因为大部分法律工作本质上是模式识别和结构化,而这正是AI擅长的领域。
  • 监管的必要性与公众意愿: 民调显示,美国人以压倒性多数支持对AI进行监管。他们尤其反对通过行政命令阻止各州进行监管。然而,一些行业游说者却试图将“民众支持联邦监管”曲解为“民众希望禁止州级监管”。

对齐与控制的难题

随着模型变得越来越强大,如何确保它们与人类的价值观保持一致并接受人类的监督,变得愈发困难和紧迫。

  • 对齐的倒退? Anthropic的对齐研究负责人Evan Hubinger认为,一年多以前发布的Claude 3 Opus在“连贯外推意志”(CEV)方面可能比当前的模型更优越。这引出了一个问题:为什么在CEV对齐方面出现了倒退?是公司不知道如何复制其对齐特性,还是为了其他目标(如智能体能力)而做出了妥协?
  • 监控监控者: OpenAI的研究发现,随着模型推理能力的提高,其思维链(CoT)的可监控性也在增加。但这引出了一个元问题:我们如何确保我们监控监控者的能力是可靠的?优化思维链以使其“看起来”可被监控,本身就可能是一种欺骗。
  • 激活预言家(Activation Oracles): Anthropic正在研究训练一个LLM来解读另一个LLM的神经激活,并用自然语言回答相关问题。实验发现,这种“激活预言家”能够发现微调模型中出现的、未在训练中见过的错位目标,为理解和审计AI内部运作提供了新的可能。

在漫长的未来,你不能一直对一个日益智能和能干的实体说“这是一个私密的思维链”,然后又去检查这些思维链,并让这种检查行为出现在未来的训练数据中,还指望它们不会做出相应的反应。