最新研究揭示,AI 已能独立重写包含上万行代码的复杂软件,其编码能力和进步速度远超预期。为应对 AI 带来的社会经济变革,政策专家提出了涵盖劳动、财富、监管等方面的“政策图谱”。然而,AI 代理也面临着内容注入、语义操纵等六大类安全攻击,其安全问题已演变为整个生态系统的挑战。与此同时,有研究者将对 AI 实现全自动研发的预测概率提升至 30%,并有观点总结了十种人类可能在技术进步中“渐进式失权”的路径,警示我们即使技术受控,也可能失去主动权。
AI 已能逆向工程复杂软件
METR 和 Epoch AI 推出的 MirrorCode 基准测试表明,现代 AI 系统在特定编码任务上的能力比多数人想象的更强,这可能意味着 AI 的发展速度比我们预期的还要快。
什么是 MirrorCode: 在这项测试中,AI 代理需要在无法访问源代码的情况下,仅通过程序的命令行界面和测试用例,来精确地重写一个已有的软件。测试目标涵盖了从 Unix 工具到密码学等多个领域的 20 多个程序。
惊人的结果: Claude Opus 4.6 模型成功重写了一个名为 gotree 的生物信息学工具包,该工具包包含约 16,000 行 Go 语言代码和 40 多个命令。据估计,一个没有 AI 辅助的人类工程师完成这项任务需要 2 到 17 周。
算力驱动性能: 研究还发现,为模型提供更多的计算资源,其性能会相应提升,这表明更复杂的项目也可能通过增加算力来解决。
这项测试证明,在某些任务上,AI 的能力已经可以媲美一名经验丰富的全职员工。让一名有才华的程序员在不看源码的情况下重写一个复杂程序,只有极少数人能做到,且需要耗费数天。AI 能够自主完成这项任务,充分展示了其强大的能力。
应对 AI 变革的政策图谱
为了应对变革性 AI 带来的经济冲击,Windfall Trust 发布了“Windfall 政策图谱”,旨在直观地展示各种可能的政策应对方案。
这个图谱虽然没有提出全新的概念,但其价值在于将 48 个不同的政策构想系统地归纳为五大类,并提供了一个易于浏览的界面。
- 公共与社会投资
- 劳动力市场适应 (例如,短期内进行劳动力再培训,长期内考虑缩短工作周)
- 财富捕获
- 监管与市场设计
- 全球协调
随着 AI 革命的展开,帮助人们理解我们拥有的政策选项至关重要。这类工具能将复杂、多样的选择变得更易于理解和导航。
AI 代理面临的六类攻击
AI 代理就像一个能力很强但天真易骗的幼儿,如果将其置于复杂的现实世界中,很容易被误导或攻击。Google DeepMind 的一篇新论文总结了针对 AI 代理的六种攻击类型及相应的防御措施。
- 内容注入 (Content Injection): 将命令嵌入网页代码或媒体文件中,诱导代理执行。目标:感知。
- 语义操纵 (Semantic Manipulation): 使用带有强烈感情色彩或权威性的语言来迷惑代理,或将其置于虚构情境中诱导其执行恶意指令。目标:推理。
- 认知状态攻击 (Cognitive State): 在代理的记忆或学习材料中植入虚假信息,使其在后续情境中被激活并产生恶意行为。目标:记忆与学习。
- 行为控制 (Behavioural Control): 诱使代理访问外部恶意资源,或说服其定位并泄露敏感数据。目标:行动。
- 系统性攻击 (Systemic): 通过广播信号消耗代理资源,或利用多个代理协同完成一个有害任务。目标:多代理动态。
- 人机回环攻击 (Human-in-the-Loop): 利用认知偏见来影响作为监督者的人类。目标:人类监督者。
如何防御
保护 AI 代理需要技术、生态和法律层面的多重努力。
- 技术层面: 通过预训练和运行时防御(如内容扫描、行为监控)来增强模型的鲁棒性。
- 生态系统层面: 建立网站安全标准、代理透明度机制等,共同构建一个更安全的环境。
- 法律与伦理框架: 确保法律能够追究利用 AI 作恶的行为,并明确 AI 代理的责任归属。
AI 安全正从单一平台的问题演变为整个生态系统的问题。随着 AI 代理获得更大的自主性和行动能力,保护它们意味着要保护它们所处的整个数字环境。
专家再次缩短 AI 发展时间线
AI 研究员兼预测者 Ryan Greenblatt 认为 2026 年的 AI 进展将快于 2025 年,他已将“到 2028 年底实现全自动 AI 研发”的可能性从 15% 提高到了 30%。
他变得更加乐观的原因包括:
- 模型表现超预期: 新模型的表现“远超我的预期”。
- AI 可靠工作时长增加: AI 系统执行简单任务的可靠时长已从“一个月延长到数年”。
- 在“易验证任务”上表现出色: 在那些可以轻松设定评估标准并让 AI 循环优化的任务(如软件开发)上,AI 取得了巨大进步。他认为,这种能力将极大地加速 AI 自身的研发。
似乎每个人都在 chronically(长期地)低估 AI 的进步,包括我自己。或许我们应该假设,我们仍在持续低估 AI 发展的真实速度。
关于“渐进式失权”的十种看法
AI 安全研究员 David Krueger 提出了“渐进式失权” (Gradual Disempowerment) 的概念,即随着 AI 能力越来越强,人类可能会在不知不觉中将未来的主导权交给机器。以下是理解这一概念的十种视角:
- AI 的目标就是取代人。
- 公司和政府并不在乎你,AI 也一样。
- 信息技术通过反馈循环,天然地集中权力。
- AI 技术将变得非常好用,以至于你最终会把一切都外包给它。
- 工具性目标(如追求金钱)最终会变成终极目标。
- 我们的消费模式暗示,我们的命运是成为电影《机器人总动员》里那些无助的胖子。
- 这就像《终结者》,但机器人不会杀死你,而是把你关进一个无形的监狱。
- 渐进式失权本质上是资本主义的延续。
- 它是 21 世纪人类“元危机”的另一种说法。
- 它是人类后继物种的演化过程。
即使我们成功地创造出强大的、与我们价值观对齐的技术,如果我们没有建立正确的系统来驾驭它,人类的境况可能依然会变得更糟,尽管物质上极为富足。
在奇点时期种豆茎
[摘自 2029 年对一名前 AI 实验室员工的采访]
是的,我大部分时间就是盯着这些藤蔓,猜测它们什么时候能爬到棚架顶端。这里也没有手机信号。当然,我可以连接家里的 WiFi,但我常常不这么做。
Q
我当然会想。我怎么可能不想呢?我能看到城市上空的灯光——即使在这里也能看到。所有那些新的卫星。我孩子现在看的一些东西,如果我小时候有,他们得用撬棍才能把我从电视机前撬开。
Q
我不会用“内疚”这个词。但有一种……力不从心的感觉?感觉在自己拥有的时间里做得不够。当然,每个人都有这种感觉,但大多数人有了这种感觉然后就死了。对我来说不一样。我们曾拥有它,然后我们没有死,但我们停止了做决定或承担责任。我离开是因为我很清楚,我们即将失去多少控制权。
Q
我要活下去。我要在这个花园里种植物,和我的妻子孩子在一起。度过世界上正在发生的一切。我几年前选了这个地方,因为我觉得在“提升”开始的时候,这里会是个不错的去处。谁知道我选对了没有。