Synth Daily

全球首个前沿AI监管细则亮相:欧盟《行为准则》令人眼前一亮

通用人工智能(AGI)公司在发展的关键阶段需要有力的安全规划与透明度措施。目前,欧盟发布的《通用人工智能行为准则》(GPAI Code of Practice)首次为此设立了具有法律约束力的要求,强制公司进行全面的风险评估、接受独立审查并向政府报告。尽管该准则在执行范围和公众透明度方面存在不足,尤其是在AGI发展的后期阶段可能效力减弱,但它被视为推动全球AGI安全监管的重要一步,并为美国和中国等国制定类似法规提供了蓝本。

为何AGI公司需要提前规划?

随着AGI技术接近“起飞”阶段,开发公司将面临在极短时间内做出高风险决策的巨大压力。这些决策,例如是否部署一个我们尚不完全理解的超强人工智能,一旦失误就可能导致灾难性后果。

在关键时刻,领先的美国AI公司可能只有几周时间来决定是否将算力交给一个目标可能不一致的、能力远超人类的AI研发代理。

因此,提前进行周密的规划至关重要。这包括:

  • 全面的威胁建模: 预测AI系统未来可能带来的具体风险,并设定识别这些风险的明确指标。
  • 设定风险底线: 在危机发生前,公司内部就必须明确哪些风险是绝对不能接受的。
  • 明确决策流程: 必须建立一个不完全由CEO或股东主导的决策机制。应设立独立的安全负责人或风险委员会,确保风险控制在决策中占有足够分量,避免商业利益压倒安全考量。

从自愿承诺到法律约束

过去,领先的AGI公司(如OpenAI、Anthropic)大多提出过一些自愿性的安全承诺。这些承诺虽然方向正确,但存在严重局限:

  • 非强制性: 并非所有前沿公司都采纳,例如中国的多数公司和曾经的xAI都没有官方安全政策。
  • 自我监督: 公司没有法律义务遵守自己的承诺。当遵守承诺会带来巨大商业损失时,这些承诺很可能被搁置。

欧盟《行为准准则》的核心要求

欧盟的《通用人工智能行为准则》改变了这一现状,它为《人工智能法案》的实施提供了具体指导,对最前沿的AI开发者施加了法律上可执行的安全与透明度义务。

该准则的核心要求包括:

  • 强制性威胁建模: 公司必须明确评估四类风险:化学、生物、放射性和核武器(CBRN)的滥用、网络攻击、有害的社会操纵以及失控风险。
  • 独立的外部评估: 在部署任何前沿模型前,必须由“具备充分资质的独立外部评估者”进行审查。这迫使公司提前建立与外部安全专家的合作关系。
  • 内部责任分配: 公司内部必须指定具体人员负责管理严重风险,并赋予他们相应的资源和独立性。
  • 对政府的强制透明: 公司必须向欧盟人工智能办公室提交详细报告,内容包括:
    • 模型评估结果: 包括红队测试等开放式测试,以及对模型是否存在欺骗或隐藏能力倾向的评估。
    • 风险预测: 定量预测其模型何时可能达到下一个风险等级。
    • 安全与控制措施: 详细说明为防止模型被窃取或失控所采取的具体措施。
  • 严重事件报告: 一旦模型发生自我泄露、被用于攻击关键基础设施或被黑客窃取等严重事件,必须在几天内通知相关政府机构。

准则的局限与未来的挑战

尽管这是一个重大进步,但该准则也存在明显缺陷,尤其是在AGI发展的最后冲刺阶段:

  • 执行杠杆有限: 欧盟的主要执法工具是罚款和市场准入。当AGI公司接近成功、不再依赖欧洲市场或公开部署模型时,欧盟的约束力将急剧下降
  • 对内部部署覆盖不足: 准则主要针对在欧盟市场投放的模型。如果公司将最强大的模型仅用于内部研发,监管机构可能对此一无所知。
  • 缺乏对举报人的保护: 准则没有为揭露内部危险行为的员工提供新的法律保护。
  • 公众透明度不够: 准则要求公司向监管机构提交报告,但不强制其向公众发布这些信息。

下一步:全球需要更强有力的监管

欧盟的准则是一个重要的开端,但真正的约束力必须来自AGI公司所在的国家。

  • 美国和中国应采取行动: 全球领先的AGI实验室都位于美国和中国,因此这两个国家需要制定类似的联邦法规,并弥补欧盟准则的不足。
  • 加强公众透明度和举报人保护: 未来的法规应强制公司向公众发布其安全框架和模型报告,并为内部员工提供强有力的举报人保护。
  • 政府需要超越监管: 仅仅要求透明是不够的。为了避免灾难,政府最终需要更深入地介入,协调资源,确保AGI的开发过程安全可控。