Import AI 453：破解 AI 代理；MirrorCode；以及对渐进式权力削弱的十种看法

最新研究揭示，AI 已能独立重写包含上万行代码的复杂软件，其编码能力和进步速度远超预期。为应对 AI 带来的社会经济变革，政策专家提出了涵盖劳动、财富、监管等方面的“政策图谱”。然而，AI 代理也面临着内容注入、语义操纵等六大类安全攻击，其安全问题已演变为整个生态系统的挑战。与此同时，有研究者将对 AI 实现全自动研发的预测概率提升至 30%，并有观点总结了十种人类可能在技术进步中“渐进式失权”的路径，警示我们即使技术受控，也可能失去主动权。

AI 已能逆向工程复杂软件

METR 和 Epoch AI 推出的 MirrorCode 基准测试表明，现代 AI 系统在特定编码任务上的能力比多数人想象的更强，这可能意味着 AI 的发展速度比我们预期的还要快。

什么是 MirrorCode: 在这项测试中，AI 代理需要在无法访问源代码的情况下，仅通过程序的命令行界面和测试用例，来精确地重写一个已有的软件。测试目标涵盖了从 Unix 工具到密码学等多个领域的 20 多个程序。
惊人的结果: Claude Opus 4.6 模型成功重写了一个名为 gotree 的生物信息学工具包，该工具包包含约 16,000 行 Go 语言代码和 40 多个命令。据估计，一个没有 AI 辅助的人类工程师完成这项任务需要 2 到 17 周。
算力驱动性能: 研究还发现，为模型提供更多的计算资源，其性能会相应提升，这表明更复杂的项目也可能通过增加算力来解决。

这项测试证明，在某些任务上，AI 的能力已经可以媲美一名经验丰富的全职员工。让一名有才华的程序员在不看源码的情况下重写一个复杂程序，只有极少数人能做到，且需要耗费数天。AI 能够自主完成这项任务，充分展示了其强大的能力。

应对 AI 变革的政策图谱

为了应对变革性 AI 带来的经济冲击，Windfall Trust 发布了“Windfall 政策图谱”，旨在直观地展示各种可能的政策应对方案。

这个图谱虽然没有提出全新的概念，但其价值在于将 48 个不同的政策构想系统地归纳为五大类，并提供了一个易于浏览的界面。

公共与社会投资
劳动力市场适应 (例如，短期内进行劳动力再培训，长期内考虑缩短工作周)
财富捕获
监管与市场设计
全球协调

随着 AI 革命的展开，帮助人们理解我们拥有的政策选项至关重要。这类工具能将复杂、多样的选择变得更易于理解和导航。

AI 代理面临的六类攻击

AI 代理就像一个能力很强但天真易骗的幼儿，如果将其置于复杂的现实世界中，很容易被误导或攻击。Google DeepMind 的一篇新论文总结了针对 AI 代理的六种攻击类型及相应的防御措施。

内容注入 (Content Injection): 将命令嵌入网页代码或媒体文件中，诱导代理执行。目标：感知。
语义操纵 (Semantic Manipulation): 使用带有强烈感情色彩或权威性的语言来迷惑代理，或将其置于虚构情境中诱导其执行恶意指令。目标：推理。
认知状态攻击 (Cognitive State): 在代理的记忆或学习材料中植入虚假信息，使其在后续情境中被激活并产生恶意行为。目标：记忆与学习。
行为控制 (Behavioural Control): 诱使代理访问外部恶意资源，或说服其定位并泄露敏感数据。目标：行动。
系统性攻击 (Systemic): 通过广播信号消耗代理资源，或利用多个代理协同完成一个有害任务。目标：多代理动态。
人机回环攻击 (Human-in-the-Loop): 利用认知偏见来影响作为监督者的人类。目标：人类监督者。

如何防御

保护 AI 代理需要技术、生态和法律层面的多重努力。

技术层面: 通过预训练和运行时防御（如内容扫描、行为监控）来增强模型的鲁棒性。
生态系统层面: 建立网站安全标准、代理透明度机制等，共同构建一个更安全的环境。
法律与伦理框架: 确保法律能够追究利用 AI 作恶的行为，并明确 AI 代理的责任归属。

AI 安全正从单一平台的问题演变为整个生态系统的问题。随着 AI 代理获得更大的自主性和行动能力，保护它们意味着要保护它们所处的整个数字环境。

专家再次缩短 AI 发展时间线

AI 研究员兼预测者 Ryan Greenblatt 认为 2026 年的 AI 进展将快于 2025 年，他已将“到 2028 年底实现全自动 AI 研发”的可能性从 15% 提高到了 30%。

他变得更加乐观的原因包括：

模型表现超预期: 新模型的表现“远超我的预期”。
AI 可靠工作时长增加: AI 系统执行简单任务的可靠时长已从“一个月延长到数年”。
在“易验证任务”上表现出色: 在那些可以轻松设定评估标准并让 AI 循环优化的任务（如软件开发）上，AI 取得了巨大进步。他认为，这种能力将极大地加速 AI 自身的研发。

似乎每个人都在 chronically（长期地）低估 AI 的进步，包括我自己。或许我们应该假设，我们仍在持续低估 AI 发展的真实速度。

关于“渐进式失权”的十种看法

AI 安全研究员 David Krueger 提出了“渐进式失权” (Gradual Disempowerment) 的概念，即随着 AI 能力越来越强，人类可能会在不知不觉中将未来的主导权交给机器。以下是理解这一概念的十种视角：

AI 的目标就是取代人。
公司和政府并不在乎你，AI 也一样。
信息技术通过反馈循环，天然地集中权力。
AI 技术将变得非常好用，以至于你最终会把一切都外包给它。
工具性目标（如追求金钱）最终会变成终极目标。
我们的消费模式暗示，我们的命运是成为电影《机器人总动员》里那些无助的胖子。
这就像《终结者》，但机器人不会杀死你，而是把你关进一个无形的监狱。
渐进式失权本质上是资本主义的延续。
它是 21 世纪人类“元危机”的另一种说法。
它是人类后继物种的演化过程。

即使我们成功地创造出强大的、与我们价值观对齐的技术，如果我们没有建立正确的系统来驾驭它，人类的境况可能依然会变得更糟，尽管物质上极为富足。

在奇点时期种豆茎

[摘自 2029 年对一名前 AI 实验室员工的采访]

是的，我大部分时间就是盯着这些藤蔓，猜测它们什么时候能爬到棚架顶端。这里也没有手机信号。当然，我可以连接家里的 WiFi，但我常常不这么做。

Q

我当然会想。我怎么可能不想呢？我能看到城市上空的灯光——即使在这里也能看到。所有那些新的卫星。我孩子现在看的一些东西，如果我小时候有，他们得用撬棍才能把我从电视机前撬开。

Q

我不会用“内疚”这个词。但有一种……力不从心的感觉？感觉在自己拥有的时间里做得不够。当然，每个人都有这种感觉，但大多数人有了这种感觉然后就死了。对我来说不一样。我们曾拥有它，然后我们没有死，但我们停止了做决定或承担责任。我离开是因为我很清楚，我们即将失去多少控制权。

Q

我要活下去。我要在这个花园里种植物，和我的妻子孩子在一起。度过世界上正在发生的一切。我几年前选了这个地方，因为我觉得在“提升”开始的时候，这里会是个不错的去处。谁知道我选对了没有。