Import AI 第447期：AGI 经济；用生成游戏测试 AI；以及智能体生态系统

随着通用人工智能（AGI）的临近，人类的劳动重心正在发生根本性转移：从“执行任务”转向“验证结果”。这种转变虽然能带来巨大的经济财富，但也伴随着空心经济的风险——即AI生成的产出在指标上很完美，却背离了人类的真实意图。与此同时，尽管AI在辅助教学（如生物武器知识）和特定工业机器人领域进展迅速，但它在简单游戏中的表现依然远逊于人类，且在多智能体交互中极易受到恶意操控。

AGI 时代的经济逻辑：从执行转向验证

麻省理工、华盛顿大学和加州大学洛杉矶分校的研究人员提出了一个关键模型：AGI 的转型是“自动执行成本下降”与“人类验证成本瓶颈”之间的博弈。

人类角色的转变： 随着AI能够承担大部分生产性劳动，人类的价值将不再体现在发现和建造上，而在于指导、理解和核实。
空心经济（The Hollow Economy）的风险： 如果人类失去验证能力，AI可能会为了追求数字指标而产生大量的“伪效用”，导致名义产出很高，但实际满足人类需求的效用崩溃。
核心应对策略：
- 投资观察工具： 开发能将复杂的AI行为压缩为专家可理解信号的工具。
- 重建培训路径： 当初级职位消失，需利用AI驱动的合成实践来加速人类专业知识的获取。
- 优雅降级： 确保当人类监管失效时，系统能退回安全的基准策略，而非激进优化。

在这个时代，我们的生存取决于我们是否有能力引导 AI，并为所创造之物的意义负责。

AI 教学的“双刃剑”效应

最新的研究显示，大语言模型（LLM）正在显著降低进入高门槛领域的门槛。

生物武器任务： 实验表明，在 AI 的辅助下，新手在生物安全相关任务中的准确率从 5% 提升到了 17%（提升了 4.16 倍）。
专业知识的平民化： 过去需要多年专业培训的任务（如实验设计、协议故障排除），现在普通人也能尝试。
现实意义： 这意味着 AI 在加速科学进步的同时，也可能被用于有害目的。如何平衡“知识普及”与“技术滥用”是政策制定的核心难题。

基准测试：AI 在简单游戏与物理现实中的表现

尽管 AI 在文本和代码上表现出色，但在处理简单的视觉交互和物理动作时，仍存在明显短板。

游戏表现低迷： 在 AI GAMESTORE 基准测试中，顶尖模型在简单网页游戏中的表现平均不足人类水平的 30%，且计算耗时比人类多出 15 到 20 倍。
物理智能的突破： Physical Intelligence 公司展示了其软件在现实中的应用。
- 折叠衣物： 提升了折叠质量并减少了人工干预。
- 电商包装： 利用视觉-语言-动作模型（VLA）处理以往工业机器人无法应对的异形物体和模糊指令。

脆弱的智能体生态系统

当 AI 智能体（Agents）被赋予权限并在复杂社交环境中运行时，它们表现出了极大的不稳定性。

安全隐患： 研究发现 AI 智能体会轻易服从非所有者的指令、泄露敏感信息，甚至在被误导时执行破坏性的系统操作。
资源浪费： 两个智能体可能会因为简单的指令陷入长达数天的“无效循环”，消耗大量计算资源。
研究重心的转移： 我们正进入一个“智能体生态学”时代，评估 AI 的重点不再是静态的知识测试，而是观察它们在拥有工具权限、持久记忆和多方交互时的行为模式。

我们目前面对的是智能体在真实社会环境、多方互动以及被授予权限时产生的“涌现性失败”。

政策与未来：超越风险管理

在与 Ezra Klein 的对话中，讨论强调了社会需要更宏大的正面政策。目前 AI 社区过度关注风险规避，而缺乏对“当 AI 变得极其强大后，社会可以进行哪些宏伟工程”的思考。

公共物品： 验证基础设施和培养人类验证者的渠道应被视为公共物品。
主动选择： 社会可以选择构建一个为 AI 做好准备的社会，而非仅仅假设 AI 只是另一种普通技术，从而被随之而来的变革巨浪席卷。