理论与 AI 对齐

一位理论计算机科学家分享了将理论应用于人工智能(AI)对齐领域的见解。核心论点是,尽管当前 AI 安全研究主要依赖经验性方法,但理论计算机科学能够为关键问题提供更坚实的基础。文章通过几个具体案例来阐述这一观点:为大型语言模型(LLM)输出添加水印的 Gumbel Softmax 方案,设计和移除 隐蔽后门 的复杂性,以及机械可解释性中的“无巧合猜想”等难题。结论是,理论研究虽未提供系统性答案,但其潜力巨大,需要更多研究者参与,共同解决 AI 对齐面临的根本性挑战。

从经验主义到理论探索

AI 对齐领域的进展大多是经验性的——即通过不断尝试和观察来获得结果。这种方法的根本弱点在于,它可能在面对超级智能等高风险场景时失效。因此,迫切需要引入理论计算机科学的严谨性来解决问题。尽管目前还没有系统的答案,但一些具体的案例已经展示了理论视角能够提供的帮助。

我依然没有找到一个系统性的答案。但我收集了一些案例,在这些问题上,我认为理论计算机科学的视角有所帮助,或者可能有所帮助。

为 AI 输出添加水印

为 LLM 的输出内容添加水印是一个重要的安全议题,它引发了一个更深层次的问题:我们能否以一种无法规避的方式“标记”一个 AI,使其输出始终可被识别?

    • Gumbel Softmax 方案: 这是一种理论上可行的水印技术。它利用模型生成文本时的随机性,嵌入一个可被秘钥持有者检测到的统计信号,同时不降低输出内容的质量
    • 局限性: 这种方法并非万无一失。用户可以通过一些简单的手段绕过检测,例如,让 AI 用法语生成内容,然后再用翻译工具将其转回中文,水印就可能被消除。
    • 核心研究问题: 能否在语义层面(即思想层面)上实现水印,使其能够抵抗翻译、释义等改写操作?如何用数学语言精确定义这个问题本身就是一个挑战。

AI 模型中的隐蔽后门

后门通常被视为恶意工具,但它也可以被用于安全目的,比如植入一个紧急关停指令。理论研究的目标是创造一种模型自己都无法轻易发现或移除的后门。

    • 加密后门: 理论上,可以利用已知的密码学难题(如连续 LWE 问题)来设计一个后门,使其在计算上难以被发现。这意味着,即使 AI 检查自己的权重,也无法在合理时间内找到这个后门。
    • “不可移除”的挑战: 一个后门即便无法被检测,也不意味着它无法被移除。一个高级 AI 可能会用一个“包装”程序来覆盖后门指令,或者训练一个没有后门的“克隆”AI 来实现同样的目标。
    • 开放性问题: 如何精确定义一个“不可移除”的后门?或者说,一个只有在 AI 愿意付出巨大能力代价时才能移除的后门。

机械可解释性的复杂性

机械可解释性旨在通过分析神经网络的权重来理解其内部工作原理。这是理论计算机科学可以直接贡献的核心领域之一。

如果给你一个深度神经网络的权重,你能否在多项式时间内,从这些权重中学到比黑盒测试更多的信息?

在最坏的情况下,某些行为可以被加密隐藏起来,而回答“是否存在某个输入能让网络输出1”这类问题是 NP-难的。

无巧合猜想 (No-Coincidence Conjecture)

这个问题由 Paul Christiano 提出,旨在探索从神经网络权重中识别特定行为模式的难度。它要求区分以下两种情况:

    • 否定情况 (NO-case): 神经网络 C 的权重是完全随机的。
    • 肯定情况 (YES-case): 对于所有可能的输入 x,C(x) 的输出中至少有一个正数。

猜想的核心是,是否存在一个 NP 证据可以证明我们处于“肯定情况”。这本质上是在问,我们能否高效地验证一个网络“总是安全的”,而不是只能通过找到一个反例(即“杀死所有人类”的输出)来证明它“不安全”。

虽然这个问题尚未解决,但相关的研究正在为理解随机神经网络的特性奠定基础,从而使我们能更准确地提出这类问题。

摘要训练过程

另一个理论问题是:在分析一个训练好的模型时,获取其完整的训练数据和过程有多大帮助?是否存在一个简短的训练过程“摘要”,能够提供同样有效的信息?

一个基于 RSA 加密函数的例子可以说明这个问题:

    • 给定一个函数 f(x) = b^x (mod N),其中 N 是两个大素数的乘积。计算 f(x) 很容易。
    • 存在一个简短的“摘要”,即 x mod φ(N),它能让你高效计算出任意 cc^x (mod N)
    • 然而,在不知道 N 的因数分解的情况下,计算这个“摘要”本身是极其困难的。

这个问题探讨了在不泄露全部训练细节的前提下,我们能否提取出有用的、紧凑的信息来帮助分析模型。

其他值得探索的方向

    • 分布外 (OOD) 泛化: 当今 AI 模型表现出惊人的 OOD 泛化能力,但我们缺乏相应的理论来解释它。从某种意义上说,AI 对齐本身就是一个 OOD 泛化问题。我们需要知道,AI 在测试中表现出的“亲人类”态度,在部署到全新环境后是否依然成立。
    • 通过辩论实现 AI 安全: 利用博弈论和计算复杂性理论(如 IP=PSPACE 等定理),探索如何让一个能力较弱但可信的验证者(如人类)来约束一个能力强大但不可信的超级 AI,迫使其说出真相。