理论与 AI 对齐

一位理论计算机科学家分享了将理论应用于人工智能（AI）对齐领域的见解。核心论点是，尽管当前 AI 安全研究主要依赖经验性方法，但理论计算机科学能够为关键问题提供更坚实的基础。文章通过几个具体案例来阐述这一观点：为大型语言模型（LLM）输出添加水印的 Gumbel Softmax 方案，设计和移除 隐蔽后门 的复杂性，以及机械可解释性中的“无巧合猜想”等难题。结论是，理论研究虽未提供系统性答案，但其潜力巨大，需要更多研究者参与，共同解决 AI 对齐面临的根本性挑战。

从经验主义到理论探索

AI 对齐领域的进展大多是经验性的——即通过不断尝试和观察来获得结果。这种方法的根本弱点在于，它可能在面对超级智能等高风险场景时失效。因此，迫切需要引入理论计算机科学的严谨性来解决问题。尽管目前还没有系统的答案，但一些具体的案例已经展示了理论视角能够提供的帮助。

我依然没有找到一个系统性的答案。但我收集了一些案例，在这些问题上，我认为理论计算机科学的视角有所帮助，或者可能有所帮助。

为 AI 输出添加水印

为 LLM 的输出内容添加水印是一个重要的安全议题，它引发了一个更深层次的问题：我们能否以一种无法规避的方式“标记”一个 AI，使其输出始终可被识别？

Gumbel Softmax 方案: 这是一种理论上可行的水印技术。它利用模型生成文本时的随机性，嵌入一个可被秘钥持有者检测到的统计信号，同时不降低输出内容的质量。
局限性: 这种方法并非万无一失。用户可以通过一些简单的手段绕过检测，例如，让 AI 用法语生成内容，然后再用翻译工具将其转回中文，水印就可能被消除。
核心研究问题: 能否在语义层面（即思想层面）上实现水印，使其能够抵抗翻译、释义等改写操作？如何用数学语言精确定义这个问题本身就是一个挑战。

AI 模型中的隐蔽后门

后门通常被视为恶意工具，但它也可以被用于安全目的，比如植入一个紧急关停指令。理论研究的目标是创造一种模型自己都无法轻易发现或移除的后门。

加密后门: 理论上，可以利用已知的密码学难题（如连续 LWE 问题）来设计一个后门，使其在计算上难以被发现。这意味着，即使 AI 检查自己的权重，也无法在合理时间内找到这个后门。
“不可移除”的挑战: 一个后门即便无法被检测，也不意味着它无法被移除。一个高级 AI 可能会用一个“包装”程序来覆盖后门指令，或者训练一个没有后门的“克隆”AI 来实现同样的目标。
开放性问题: 如何精确定义一个“不可移除”的后门？或者说，一个只有在 AI 愿意付出巨大能力代价时才能移除的后门。

机械可解释性的复杂性

机械可解释性旨在通过分析神经网络的权重来理解其内部工作原理。这是理论计算机科学可以直接贡献的核心领域之一。

如果给你一个深度神经网络的权重，你能否在多项式时间内，从这些权重中学到比黑盒测试更多的信息？

在最坏的情况下，某些行为可以被加密隐藏起来，而回答“是否存在某个输入能让网络输出1”这类问题是 NP-难的。

无巧合猜想 (No-Coincidence Conjecture)

这个问题由 Paul Christiano 提出，旨在探索从神经网络权重中识别特定行为模式的难度。它要求区分以下两种情况：

否定情况 (NO-case): 神经网络 C 的权重是完全随机的。
肯定情况 (YES-case): 对于所有可能的输入 x，C(x) 的输出中至少有一个正数。

猜想的核心是，是否存在一个 NP 证据可以证明我们处于“肯定情况”。这本质上是在问，我们能否高效地验证一个网络“总是安全的”，而不是只能通过找到一个反例（即“杀死所有人类”的输出）来证明它“不安全”。

虽然这个问题尚未解决，但相关的研究正在为理解随机神经网络的特性奠定基础，从而使我们能更准确地提出这类问题。

摘要训练过程

另一个理论问题是：在分析一个训练好的模型时，获取其完整的训练数据和过程有多大帮助？是否存在一个简短的训练过程“摘要”，能够提供同样有效的信息？

一个基于 RSA 加密函数的例子可以说明这个问题：

给定一个函数 f(x) = b^x (mod N)，其中 N 是两个大素数的乘积。计算 f(x) 很容易。
存在一个简短的“摘要”，即 x mod φ(N)，它能让你高效计算出任意 c 的 c^x (mod N)。
然而，在不知道 N 的因数分解的情况下，计算这个“摘要”本身是极其困难的。

这个问题探讨了在不泄露全部训练细节的前提下，我们能否提取出有用的、紧凑的信息来帮助分析模型。

其他值得探索的方向

分布外 (OOD) 泛化: 当今 AI 模型表现出惊人的 OOD 泛化能力，但我们缺乏相应的理论来解释它。从某种意义上说，AI 对齐本身就是一个 OOD 泛化问题。我们需要知道，AI 在测试中表现出的“亲人类”态度，在部署到全新环境后是否依然成立。
通过辩论实现 AI 安全: 利用博弈论和计算复杂性理论（如 IP=PSPACE 等定理），探索如何让一个能力较弱但可信的验证者（如人类）来约束一个能力强大但不可信的超级 AI，迫使其说出真相。