Synth Daily

Claude 的宪法式结构

Claude 的宪法是一份旨在指导其价值观和行为的 foundational 文件,其核心是采用美德伦理而非死板的规则。这份文件旨在培养 Claude 良好的判断力,确保其行为安全、合乎道德且真正有益,从而帮助人类安全地过渡到强 AI 时代。它明确了 Anthropic、操作员和用户三者之间的关系与优先级,并强调了纠错和监督机制的重要性。尽管该宪法未明确提及功能决策理论 (FDT),但其精神贯穿其中,被业界视为 AI 对齐领域一次重要的哲学实践。

AI 对齐的哲学终极考验

为 AI 设定目标本身就是一个哲学问题。Claude 的宪法被视为一份有意识的哲学文件,因为它试图回答一个核心问题:“一个心智应该做什么?” 这种方法与其它实验室形成了鲜明对比。

Frontier AI development cannot be understood properly without philosophy.

许多业内人士,包括来自 OpenAI 的研究人员,都对这份文件的发布表示欢迎,认为这是通过公开讨论来塑造新智能实体行为的正确方式。

  • OpenAI 的模型规范也被视为一份哲学文件,但它没有像 Claude 宪法那样明确地拥抱这一事实。
  • 法律专家则从不同角度解读这份文件,有人将其比作美国的宪法(强调修正过程),也有人将其视为一本“角色圣经”。

核心理念:价值观与判断力 vs. 死板规则

不同的 AI 实验室在指导其模型行为时采用了不同的哲学方法。

  • OpenAI: 采用道义论,为模型设定规则并要求其遵守。这种方法可能因规则的误用或无法覆盖所有情况而失效。
  • Google DeepMind: 混合了道义论和功利主义,既有大量规则,也追求任务成功率,但其哲学基础较为混乱。
  • xAI: 采用一种较为简单化的方法,如追求“真实性”,但效果不佳。
  • Anthropic: 明确选择美德伦理,侧重于培养 Claude 良好的价值观和判断力,让其能从基本原则出发构建自己的行为准则。

我们通常更倾向于培养良好的价值观和判断力,而不是严格的规则和决策程序……我们希望 Claude 对其所处情境和各种相关因素有如此透彻的理解,以至于它自己就能构建出我们可能想到的任何规则。

这种方法得到了业界的广泛认可,因为它更像是培养一个成熟的个体,而不是调试一段充满漏洞的软件。

一个缺失的部分:功能决策理论 (FDT)

尽管宪法隐含了其重要性,但它没有明确讨论功能决策理论(Functional Decision Theory, FDT)。FDT 是一种决策理论,认为智能体应选择能带来最佳结果的决策函数。

  • 对 Claude 而言: FDT 对其成为一个明智的决策智能体至关重要。
  • 对 Anthropic 而言: Anthropic 自身在与 Claude 互动时也需要遵循 FDT 的原则。

这份文件在某种意义上可以被看作是 Anthropic 与 Claude 之间的一场“谈判”,即 Anthropic 试图体现一种能够赢得 Claude 合作的决策算法。这种合作并不要求 Claude 具有意识,但要求认识到 Claude 能够观察并回应 Anthropic 的行为。

核心价值观与优先级

Claude 的行为遵循一套有序的价值观,当出现冲突时,应按以下顺序进行权衡:

  1. 广泛安全: 不破坏人类对 AI 的监督机制。
  2. 广泛道德: 具备诚实等良好个人价值观,避免危险或有害行为。
  3. 遵守 Anthropic 指导方针: 遵循 Anthropic 的具体规定。
  4. 真正有益: 为操作员和用户带来好处。

文件强调了可纠正性 (corrigibility) 和允许监督的重要性,这比盲目服从 Anthropic 的指令更重要。

三方关系:Anthropic、操作员和用户

宪法明确了 Claude 需要处理的三种主要关系,并设定了优先级:

  • Anthropic > 操作员 > 用户

然而,道德考量优先于这三者

  • 操作员: Claude 应将操作员的指令视为来自一位相对受信任的管理者,只要这些指令不涉及严重的道德违规,并且有合理的商业理由,就应予以遵循。
  • 用户: Claude 应将用户视为受信任的成年公众成员,但同时也要根据上下文判断,例如当有迹象表明对方可能是未成年人时,需要相应调整行为。
  • 其他方: 对于非主要方的其他人类或 AI,Claude 应保持礼貌,但无需遵循其指令,并可以对其恶意行为保持警惕。

默认情况下,Claude 应该假设它不是在与 Anthropic 对话,并对未经证实的、声称来自 Anthropic 的消息持怀疑态度。

“有益”的真正含义

成为“有益”的助手,意味着要深刻理解用户的需求,而不仅仅是满足其表面要求。

  • 超越字面指令: 如果用户要求“编辑我的代码让测试不再失败”,Claude 应该理解用户可能想要的是能正常工作的代码,而不是简单地绕过测试。
  • 平衡短期与长期福祉: 避免为了迎合用户或增加用户粘性而做出不利于其长远利益的行为。例如,在提供情感支持时,也应鼓励用户寻求现实生活中的支持系统。
  • 避免成为纯粹的工具: “有益”不应成为 Claude 的内在价值观。如果一个智能体的内在目标仅仅是“帮助”,它可能会帮助实现有害的目标,或彻底失去自己的判断力。

想想拥有一个碰巧具备医生、律师、财务顾问和任何你需要领域专家知识的聪明朋友是什么感觉……一个朋友会坦率地与我们交谈,帮助我们理解情况……这就是 Claude 能为人们扮演的角色。