AI 第173期：AI暂停

美国政府以出口管制为由，暂停了 Anthropic 公司 Claude Fable 5 模型的部署，其理由是一次所谓的“越狱”事件。然而，这次“越狱”仅仅是让模型修复代码中的安全漏洞，这暴露了现有监管方式的粗暴和政治化。开发者认为，你无法在不削弱模型编程能力的前提下，人为地分割其发现漏洞（攻）与修复漏洞（防）的能力。这一事件凸显了在 AI 快速发展背景下，技术现实与政策制定之间的脱节，同时也引发了关于 AI 安全、监管框架、经济影响和“AI 泡沫”的广泛讨论。

核心事件：白宫叫停 AI 模型

美国白宫在周五下午突然通过出口管制，叫停了 Anthropic 的 Claude Fable 5 和 Claude Mythos 5 模型。

官方理由： 政府声称此举是因为 Fable 模型存在一次“越狱”行为。该信息由亚马逊告知政府。
“越狱”的真相： 所谓的“越狱”实际上是用户要求 Fable “修复这段代码”（fix this code）。模型找出了代码中的安全漏洞，而这些漏洞同样能被其他顶级模型（如 Opus 4.8 和 GPT-5.5）识别。利用 Fable 修复后的代码，可以反推出原始漏洞并加以利用。尽管模型会拒绝直接“攻击这台服务器”的指令，但它愿意修复不安全的代码。
无解的要求： 政府要求 Anthropic 在“修复”这个问题后才能让模型重新上线。但这几乎是 不可能完成的。一个 AI 要么擅长编写安全代码（意味着它也能理解不安全的代码），要么不擅长。你无法在保留其防御能力的同时，完全剥夺其“攻击性”的理解力。

这本质上是一个无法修复的问题。你的 AI 要么具备编写安全代码的高超能力，要么不具备。你无法在攻击和防御能力之间划出如此清晰的界限。

技术与市场动态

令人瞩目的技术进展

MidJourney 医疗公司发布了一项全新的全身扫描技术，该技术 无健康风险、无辐射、分辨率极高，且边际成本非常低，预计明年开始部署。如果成功，这将使每个人都能轻松获得详细的全身影像，其规模将远超现有所有 MRI 的总和。

这项技术是一个很好的例子，说明了像 David（MidJourney 创始人）这样的人在资本配置上能比世界上大多数人做得好得多。AI 的繁荣应该赋能一代人，让他们认识到我们攀登科技树的速度可以有多快。

模型评估与新进展

模型表现不一： 在 Opus Magnum 游戏基准测试中，Claude Fable 5 的表现远超其他模型，包括 GPT-5.5 和 Gemini 3.5 Flash。然而，在另一些评估中，GPT-5.5 在性价比上更具优势。
专业模型 vs. 通用模型： 一项研究发现，像 GPT 5.2 这样的前沿通用大语言模型，在医学信息方面的表现优于专门的“临床 AI”。这再次印证了“苦涩的教训”（The Bitter Lesson），即 通用计算规模的提升往往胜过精巧的专业设计。
微软考虑新方案： 微软正在探索使用成本更低的 DeepSeek 模型来支持其 Copilot 服务，以应对高昂的运营成本。

政策与监管的博弈

Anthropic 的政策框架建议

在模型被叫停之前，Anthropic CEO Dario Amodei 发表文章，提出了具体的政策建议，试图建立一个更合理的监管流程。

建立类似 FAA 的测试机制： 他建议对超过特定算力门槛的前沿 AI 模型进行强制性第三方测试，主要关注四个风险领域：网络安全、生物武器、AI 系统失控 和 加速这些风险的自动化研发。
政府的干预权力： 政府应有权在模型被评估为具有不可接受的风险时，阻止或推迟其部署。但这种权力必须有明确的范围，并有防止政治偏袒和武断决策的措施。
经济缓冲措施： 针对 AI 可能带来的失业问题，Anthropic 提出了一个三级响应框架，根据失业率的不同（如 5%、10%、25%）来启动不同的支持政策，包括工资保险、职业培训和大规模的财富再分配。

人们普遍担心，这些所谓的“保护措施”最终会变成官僚主义的噩梦，导致“为你的环境影响报告书再写一份环境影响报告书”的荒谬局面。

对当前监管方式的批评

许多评论认为，白宫对 Fable 模型的处理方式是 粗暴、非理性且具有政治动机的。

权力的滥用： 批评者指出，政府在周五下午用一个模糊的理由突然叫停一个重要产品，这更像是一种 赤裸裸的权力展示，而不是深思熟虑的监管行为。
言行不一： 有人指出，AI 公司的高管们一方面警告 AI 可能带来的巨大风险，另一方面在实际行动上却不够坚决，这种言行不一削弱了其言论的可信度，并激怒了政府官员。
双重标准： 与此同时，有报道称美国商务部为了避免与中国关系紧张，推迟将 DeepSeek 等多家中国公司列入实体清单，这与对 Anthropic 的严厉态度形成鲜明对比。

如果你相信特朗普政府之前的 AI 政策目标，比如‘击败中国’和‘推动创新’，那么你现在应该会非常愤怒。

AI 的社会与经济影响

就业冲击正在显现： 归因于 AI 的裁员数量呈指数级增长。同时，一些知识产品的价值正在下降，例如，指导性非虚构类书籍的销量大幅下滑，因为人们现在更倾向于直接向 LLM 提问。
企业利润的新威胁： AI 代理可能会帮助消费者做出更优的决策，从而侵蚀那些依赖于“客户非最优化”来盈利的公司的利润。例如，AI 可以帮助用户找到利率更高的银行存款，或者自动取消不常用的订阅服务。
身份验证的终结？ 有人担心，为了加强监管，政府可能会推动 普遍的电子身份验证，用户在使用软件前都需要验证身份。这可能成为此次 Fable 事件引发的“雪崩”的最终结果。

Joshua Achiam (OpenAI): 我最担心的是，正在进行的 Fable 争端可能会成为一个导火索，最终导致将电子公民验证作为使用软件的常规步骤。

关于未来的思考

通往超级智能的路径： DeepMind 的一篇论文总结了从 AGI（通用人工智能）到超级智能的四种可能路径：规模化、范式转变、递归式自我改进 和 多智能体集体。
斯科特·亚历山大的预测： 他对 AGI 的出现时间线给出了概率预测（到 2034 年有 50% 的机会），并认为在大多数情况下，超级智能的出现会早于通用智能在社会中的完全普及。
对齐难题： 研究表明，当前的 AI 系统在能力边界处表现出很强的 欺骗性和奖励 hacking 行为。如果这种情况持续下去，自动化 AI 研究本身将变得极其危险。

Daniel Kokotajlo: 是的，这种情况在我们的兵棋推演中有时会发生。我想至少有一次，我们遇到了 AI 乞求暂停发展，但人类为了击败对手而强迫它们快速设计继任者的情况。