《昔日与未来寓言》第4期

这篇内容分析了美国政府限制前沿AI模型（如 Fable 5）的政策，认为此举是一场混乱的失败，损害了盟友的信任，却未能阻止实验室继续开发更强大的模型。文章的核心争论在于AI在网络安全领域的双刃剑效应：它既能用于发现漏洞，也能被用于攻击。最终指出，通过数据留存和身份验证 (KYC) 等措施进行风险控制，并建立中美之间更具技术含量的对话机制，是管理危险AI的必要途径。

一场糟糕的政策闹剧

即便对模型的访问权能如预期般恢复，这次事件也堪称一场 fiasco（惨败）。这种政策执行的混乱不仅激怒了盟友，让外界对整个“美国AI技术栈”的可靠性产生怀疑，甚至导致美国国家安全局（NSA）自己也失去了对高级模型 Mythos 的访问权限。

我邀请你想象一下，如果情况反过来，是卡玛拉·哈里斯总统以未公开的理由，无限期地对 Grok 模型实施出口管制，那些评论员和行业人士会作何反应。 — Dean W. Ball

所谓的“自愿”审查协议也并非真的自愿。政府通过联邦采购等方式施加压力，要求科技公司提交模型进行审查，目前只有 Meta 仍在坚持，但据报道也即将妥协。

研发从未停止

公众暂时无法使用 Fable 5，但这并不意味着实验室会停止开发能力更强的AI模型。

发展仍在加速： 停止向公众提供模型服务，实际上可能因资源释放而略微加速研发。
新模型已出现： 据报道，一个比 Mythos 5 更强大的新版本已经完成训练。实验室没有理由暂停或放慢脚步。
竞争压力： 为了在商业上保持领先，领先的AI实验室必须不断训练更强大的系统，以超越开源模型和其他竞争对手。

这场竞赛的潮流仍在冰面下汹涌，我们仍在向着终点全速前进。

如果发布最强模型会招致限制，那么像 Anthropic 或 OpenAI 这样的公司很可能会选择将其保留在内部使用——而这恰恰是风险最大的地方。

AI的黑客能力：真相与误解

关于 Mythos 模型能力的说法一度引起恐慌。最广为流传的说法是它“在几小时内侵入了NSA几乎所有的机密系统”。

事实并非如此。实际情况是：

这是一个由专业授权的“红队”进行的测试。
测试人员在拥有物理访问权限和初始访问权限的条件下使用 Mythos。
他们是在一个与外部互联网完全隔绝的机密网络内部进行测试。

这位将军（NSA负责人）说的是：美国政府的红队以前只有 Cobalt Strike 等工具，现在他们有了这些工具 加上未经审查的 Mythos——果然，他们在拥有 Mythos 后变得更成功、行动也更快了。 — IRIS C2

虽然 Mythos 极大地提升了红队发现漏洞的效率，证明了其强大的能力，但这并不意味着任何普通人都能从外部黑进这些系统。然而，这个被误解的“骇人”说法很可能影响了政府的决策。

超级黑客AI：末日还是福音？

关于AI在网络安全中的作用，存在两种对立的观点。

防御最终会胜出： 有人认为，足够先进的AI可以编写出通过“形式化验证”的、无法被攻破的软件。就像高水平国际象棋中平局越来越多一样，随着AI能力的提升，代码将趋于完美安全。
风险无法估量： 另一些人则认为，并非所有软件都能被形式化验证。更重要的是，网络安全的价值并非微不足道，它关系到整个信息技术经济的存亡。 > 网络安全风险是我们为了享受信息技术经济带来的集体智慧而必须支付的税。问题是，这个税到底有多高？你确定它值得支付吗？

对于灾难性风险，我们不能等到威胁明确出现时再行动。你无法等到确切知道谁、在何时、何地、如何攻击哪个系统后才开始防御，因为到那时一切都晚了。

数据留存：一种纵深防御

要防止像 Fable 这样强大的模型被滥用，数据留存是任何理性防御策略的一部分。它允许平台追溯和发现恶意行为。

目的： 找出谁在使用大量计算资源进行网络安全相关的可疑操作，并将其与信誉关联。
作用： 这并非万无一失，但它构成了一系列“纵深防御”的障碍，大大提高了攻击操作的实际难度、风险和成本。
误解澄清： 担心公司会利用这些数据进行模型训练是多余的。像 Anthropic 这样的公司不会冒着失去最重要客户的风险去撒谎或强行使用客户数据。

拿起电话，但要找对人

限制危险AI的公开发布，比限制其研发更容易达成国际协议，因为前者易于监控，且一方违约后另一方可立即反制。

目前，美中两国已就AI护栏问题展开对话。然而，对话的效果并不理想。

对话本身未达到预期。北京方面让外交部负责，而不是像科技部这样的技术机构，这限制了交流的实质内容。 — Lingling Wei (WSJ)

问题在于，双方派出的代表似乎都缺乏足够的技术背景。美国代表团由商务背景的官员领导，而中国则派出了外交官。要进行有意义的约束，我们需要的是技术专家之间的直接对话。