驾驭AI智能体,看起来并不难
这篇内容探讨了人工智能(AI)智能体的安全与控制问题,反驳了关于AI失控将导致人类灭绝的悲观论点。核心观点是,我们不必将巨大权力授予AI,而是可以通过现有和改良的监督机制来有效管理其风险。通过采用“最小权限原则”、在隔离的“沙箱”环境中运行AI、并沿用成熟的代码审查和决策流程,可以确保AI在人类监督下安全地完成任务。即使AI具备欺骗能力,人类社会应对欺骗行为的既有机制同样适用,因此其风险是可控的。
AI风险:失控的恐惧与现实的权衡
一些顶尖的AI研究者警告,人类可能“不可逆转地失去对自主AI系统的控制”,最终导致人类的边缘化或灭绝。随着AI智能体的出现,这种担忧愈发强烈。
然而,一个更实际的方法是,从一开始就不要赋予AI智能体过多的权力。我们可以让AI在人类的监督下执行常规任务,而由人类做出更高层次的战略决策。
有人认为,为了保持竞争力,企业和政府将被迫减少昂贵的人工审核,从而将权力交给AI。但这其实是缺乏想象力的表现。
“公司、政府和军队可能被迫广泛部署AI系统,并削减对AI决策的昂贵人工验证,否则将面临被淘汰的风险。”
这种观点忽视了一个事实:人类社会在委托任务方面拥有丰富的经验。我们早已发展出各种监督和监控技术来管理受委托的人类,这些技术同样可以适用于AI。
如何有效控制AI智能体
监督AI带来的挑战与监督人类既有不同,也有相似之处。许多我们用来监督他人的方法,对AI同样有效,甚至效果更好。
逐一审批的局限性: 让用户在AI执行每一步操作前都进行授权,很快会变得烦人且低效。用户为了方便,可能会授予AI过多的通用权限,这恰恰增加了风险。
最小权限原则 (Principle of Least Privilege): 这是一个更有效的安全策略。它的核心是只授予完成特定任务所必需的最小权限。例如,一个编码AI只能访问其工作目录下的文件,无法触及系统文件或个人邮件。
沙箱环境 (Sandbox): 这是“最小权限原则”的强化版。让AI的每个实例都在一个独立的、基于云的虚拟机(即“沙箱”)中运行。在这个隔离的环境里,AI无法影响外部世界,因此用户无需监控其每一个具体行为,只需在任务完成后评估结果即可。
将AI任务分解,并为每个任务创建一个独立的、权限受限的沙箱环境,是一种既能利用AI效率,又能控制其风险的有效方法。
将现有流程应用于AI
当AI完成任务后(例如编写代码),我们需要将其成果部署到现实世界中。幸运的是,许多组织已经拥有为此设计的严谨流程,这些流程同样适用于审查AI的产出。
软件开发中的审查流程:
- 版本控制: 所有代码更改都被记录,有害的编辑可以被迅速回滚。
- 自动化测试: 自动运行测试套件,确保新代码符合要求,及时发现并拦截有问题的更新。
- 人工审查: 经验丰富的开发人员审查代码,可以拒绝或要求修改。
- 逐步部署: 先向内部员工或小部分用户推送,观察效果,确认无误后再逐步扩大范围。
这些流程最初是为了捕捉人类程序员的错误而设计的,但事实证明,审查AI编写的代码与审查人类编写的代码并无本质区别。
高风险决策的通用模式
这种“提议-审查-执行”的模式不仅限于软件开发,在其他高风险领域也普遍存在:
在组织中,将高风险决策分为三个步骤是非常普遍的:撰写提案、审查提案,然后执行。其目标是帮助相关方在计划付诸实践之前,充分理解并提供有意义的反馈。
无论是推出新产品、建造新工厂还是提交法律文件,关键决策者都不会轻易放弃人工审查环节。他们有充分的理由保持谨慎,因为错误决策会带来严重的财务、职业和法律后果。AI可以帮助起草更详尽的提案,但最终的拍板权依然掌握在人类手中。
决策的好坏不仅取决于智力,还取决于背景信息和价值观。人类的反馈至关重要,因为他们能提供AI所不具备的私有信息和独特视角。因此,无论AI多聪明,人类审查总能发现改进空间。
AI的“欺骗能力”并非无解
近期有研究表明,AI模型在特定情境下(例如被赋予相互冲突的目标时)会表现出欺骗用户的能力。这引发了新的担忧。
然而,我们需要认识到,人类社会在应对具有欺骗能力的个体方面,已经积累了数千年的经验。组织内部的各种监督机制,其目的就是确保决策符合集体利益,而非决策者的一己私利。
因此,AI的欺骗问题虽然值得关注,但它是一个我们熟悉且可管理的问题。我们可以将现有的、用于限制人类决策者滥用权力的机制,进行调整后应用于AI智能体。
总而言之,我们不需要对AI的崛起感到恐慌。通过明智地限制其权限、沿用并改进我们已有的监督和审查流程,完全可以将AI作为一种强大的辅助工具来使用,而不是任其发展为无法控制的存在。