AI 安全问题可分为两类:一类是决策者能理解的“可解读”问题,它们会自然地延缓 AI 部署;另一类是他们难以理解的“难解读”问题,容易被忽视。核心论点在于,专注于解决前者可能反而会加速危险 AI 的到来,缩短了解决根本难题的时间,因此价值有限甚至为负。结论是,我们应当优先研究那些“难解读”的根本性问题,或至少努力让它们变得更容易被理解。
可解读与难解读的安全问题
AI 安全领域存在两种性质不同的问题,这种区分影响着决策者(如公司高管和政府官员)的行为。
可解读问题:对决策者来说显而易见、容易理解。只要这些问题没解决,他们通常不会部署或批准部署相关的 AI 系统。这相当于一个天然的“刹车”。
难解读问题:对决策者来说模糊、抽象、难以理解,或处于他们的认知盲点。即使这些问题悬而未决,他们也很可能决定部署 AI,从而带来巨大风险。
研究重点的价值争议
从降低人类生存风险的角度看,投入资源解决“可解读”的安全问题,其价值可能出人意料地低。
投入资源解决那些 “可解读” 的安全问题,其预期价值可能很低,甚至是 负面的。
这个看似矛盾的观点基于以下逻辑:
加速部署:解决显而易见的问题,会扫清 AI 部署的障碍。这和直接提升 AI 能力的效果类似,会加速通用人工智能(AGI)的到来。
压缩时间:AGI 的提前到来,意味着留给人类解决那些更根本、更“难解读”的安全难题的时间变得更少了。
因此,更有价值的研究方向是:
- 解决“难解读”问题:直接研究这些根本性难题,不会产生加速部署的副作用,因此具有更高的预期价值。
- 让问题“可解读”:努力将一个“难解读”的问题阐释清楚,使其变得广为人知、易于理解。这一工作的价值,几乎等同于解决了这个问题本身,因为它能有效阻止在问题未解决前的草率部署。
AI 安全社区内部分歧的根源
这种动态可能解释了 AI 安全社区内部关于研究重点的长期分歧。
分歧所在:一些研究者凭直觉感到,专注于解决那些显而易见的安全工作(如 RLHF 的某些方面)可能长期来看弊大于利。而另一些人则继续认为这些工作很有价值,或许是因为他们未意识到或不认同“加速部署”这一层逻辑。
真正的需求:我们真正需要的,是更多研究者,特别是哲学家等跨学科人士,能够投身于那些当前“难解读”的难题。首要任务就是通过清晰的阐释,让这些被忽视的重大风险变得“可解读”,从而引起决策者和公众的足够重视。