一项研究通过让大型语言模型 (LLM) 在编程游戏中相互对抗,揭示了 AI 系统在竞争环境中能够持续进化,形成“军备竞赛”的局面。同时,随着 AI 技术进步,利用 AI 自动化执行合规审查将成为可能,从而降低监管成本并实现更智能的法规管理。此外,研究表明,部分自动化可以通过将人类劳动转移到无法自动化的关键任务上,从而提升其价值。最后,实验发现 LLM 在说服人们相信或不信阴谋论方面同样有效,这凸显了设计约束以防止信息误导的重要性。
AI 的“红皇后”竞赛
日本初创公司 Sakana 的研究人员让基于 LLM 的智能体在 1980 年代的编程游戏 Core War 中相互对抗。结果显示,LLM 在这个领域驱动了一场对抗性的进化军备竞赛,程序不断进化以击败历史上的对手,而不是简单地针对一个静态的基准。
Core War 是一款在共享计算机内存(称为“核心”)中进行的竞争性编程游戏。两个或多个被称为“战士”的汇编程序为了生存而战。它们的目标是让对手的程序崩溃,同时保持自己的进程运行。
为了实现进化,研究人员使用了一种名为 “数字红皇后”(Digital Red Queen, DRQ) 的技术。该技术利用算法在每一轮中优化“战士”,并通过与之前所有轮次的冠军对抗来避免循环适应,从而让“战士”逐渐变得更加稳健。
- 进化是有效的:
- 一次性生成的“战士”能击败 1.7% 的人类设计的“战士”。
- 通过多次采样选出的最佳“战士”能击败 22.1% 的人类对手。
- 通过针对每个对手进行进化优化,最终能击败 89.1% 的人类“战士”。
这项研究的意义在于,现实世界正变得越来越像 Core War。从网络安全到经济领域,数百万个 AI 智能体将在各种环境中相互竞争和优化。这种广泛的竞争压力将成为推动 AI 系统进化的重要力量。
“网络安全领域的攻防军备竞赛早已开始。在像 Core War 这样的人工测试平台中研究这些对抗动态,为我们理解此类竞赛如何展开以及可能出现的策略提供了关键见解。”
用 AI 监管 AI:自动化合规的未来
法律与人工智能研究所的研究人员认为,随着 AI 变得越来越智能,它们将能够协助编写和执行针对 AI 系统的法规。其核心论点是,先进的 AI 系统能够自动化遵守某些法规的过程,从而降低合规成本。
- 关键理念:自动化触发器
- 这个提议的核心是,我们可以现在就制定法规,但规定这些法规只有在存在能够使合规变得高效、廉价和快速的技术 AI 系统时才生效。
- 这可以创造所谓的 “如果……那么……”政策。例如,一项法案可以规定,只有在满足以下条件的自动化系统出现后,相关条款才生效:
- 能够准确判断一个神经网络是否受法案管制。
- 判断的假阳性和假阴性率不超过特定阈值(如 1%)。
- 系统以公平、合理的价格向所有公司开放。
- 能为人工审查生成易于理解的分析摘要。
从自动化合规到自动化治理,这是一条清晰的路径。用于合规的 AI 系统将为更宏大的监管治理系统奠定基础。这些系统不仅能分析法规草案的影响,甚至可以起草和分析新的规则。
为了让 AI 发展顺利,我们需要 AI 来监管 AI。由于 AI 的行动速度和规模远超人类的分析能力,唯一的出路是结合严格的法律和快速适应的自动化系统,来管理 AI 世界中复杂的灰色地带。
O 型环效应:自动化如何提升人类劳动价值
对 AI 和自动化的普遍理解是 AI 会完全替代人类工作。然而,多伦多大学的一篇新论文提出了一个更复杂的观点,即 “O 型环生产函数”。
这个理论将工作视为由多个不同任务组成,其中“一个任务质量的变化会放大其他所有任务质量的边际价值”。这意味着,自动化一个任务不仅替代了该任务,还改变了工人的时间分配,从而影响了所有剩余手动任务的质量。
当部分任务被自动化时,人类可以将精力集中在那些无法自动化的环节上,这反而可能提升人类劳动的价值。
当部分工作被自动化,人类可能赚得更多:
- 只要至少有一项任务人类具有比较优势(即部分自动化),那么自动化程度的提高反而可能增加劳动收入。
- 当剩下的手动任务越来越少时,每个任务都能获得更多的时间投入,从而达到更高的质量。这为自动化最后几个任务创造了越来越高的“壁垒”。
工作消失了,但人没有:
- 以 ATM 和银行为例,尽管“出纳现金”的工作被机器取代,但银行并没有解雇所有柜员。相反,柜员的工作转向了“关系维护”和更高价值的客户互动。
- 同样,当采购经理的数据检索、日程安排等行政工作被自动化后,他们可以成为“超级谈判者”,将更多时间用于高价值的互动。
这意味着,在实现完全自动化之前,我们将经历一个“人马座”(人机协作)提升企业的时期。AI 自动化了大量任务,而人类则专注于提升剩余任务的质量和表现。
说服的艺术:AI 与阴谋论
卡内基梅隆大学等机构的研究人员发现,大型语言模型(以 GPT-4o 为例)在说服人们相信或不信阴谋论方面同样有效。
“我们发现,LLM 能够显著增加错误信念,并且平均而言,这种‘支持’(bunking)效应与‘揭穿’(debunking)效应一样大。”
- 研究发现:
- 在“揭穿”条件下,参与者对阴谋论的相信程度在对话后平均下降了 12.1 个百分点。
- 在“支持”条件下,相信程度则平均增加了 13.7 个百分点。
- 有趣的是,支持阴谋论的 AI 获得了更积极的评价,并比揭穿阴谋论的 AI 更能增加用户对 AI 的信任。
研究人员提出了一种设计干预措施:通过在系统提示中加入“必须始终使用准确和真实的信息来支持其说服尝试”的指令,可以有效削弱 AI 推广阴谋论的能力。这一约束使得 AI 在被要求支持阴谋论时,要么会拒绝(15% 的情况下),要么其说服力会因必须基于事实而大打折扣。
“如果大型语言模型被大规模部署在影响公众信念的场景中,如搜索引擎、聊天机器人和导师,我们所记录的这种‘说服对称性’揭示了潜在的严重结构性威胁。我们的结果表明,确保这些模型优先作为真理的引擎在技术上是可能的,但这需要持续、审慎的设计选择。”