Claude 的宪法式结构

Claude 的宪法是一份旨在指导其价值观和行为的 foundational 文件，其核心是采用美德伦理而非死板的规则。这份文件旨在培养 Claude 良好的判断力，确保其行为安全、合乎道德且真正有益，从而帮助人类安全地过渡到强 AI 时代。它明确了 Anthropic、操作员和用户三者之间的关系与优先级，并强调了纠错和监督机制的重要性。尽管该宪法未明确提及功能决策理论 (FDT)，但其精神贯穿其中，被业界视为 AI 对齐领域一次重要的哲学实践。

AI 对齐的哲学终极考验

为 AI 设定目标本身就是一个哲学问题。Claude 的宪法被视为一份有意识的哲学文件，因为它试图回答一个核心问题：“一个心智应该做什么？” 这种方法与其它实验室形成了鲜明对比。

Frontier AI development cannot be understood properly without philosophy.

许多业内人士，包括来自 OpenAI 的研究人员，都对这份文件的发布表示欢迎，认为这是通过公开讨论来塑造新智能实体行为的正确方式。

OpenAI 的模型规范也被视为一份哲学文件，但它没有像 Claude 宪法那样明确地拥抱这一事实。
法律专家则从不同角度解读这份文件，有人将其比作美国的宪法（强调修正过程），也有人将其视为一本“角色圣经”。

核心理念：价值观与判断力 vs. 死板规则

不同的 AI 实验室在指导其模型行为时采用了不同的哲学方法。

OpenAI: 采用道义论，为模型设定规则并要求其遵守。这种方法可能因规则的误用或无法覆盖所有情况而失效。
Google DeepMind: 混合了道义论和功利主义，既有大量规则，也追求任务成功率，但其哲学基础较为混乱。
xAI: 采用一种较为简单化的方法，如追求“真实性”，但效果不佳。
Anthropic: 明确选择美德伦理，侧重于培养 Claude 良好的价值观和判断力，让其能从基本原则出发构建自己的行为准则。

我们通常更倾向于培养良好的价值观和判断力，而不是严格的规则和决策程序……我们希望 Claude 对其所处情境和各种相关因素有如此透彻的理解，以至于它自己就能构建出我们可能想到的任何规则。

这种方法得到了业界的广泛认可，因为它更像是培养一个成熟的个体，而不是调试一段充满漏洞的软件。

一个缺失的部分：功能决策理论 (FDT)

尽管宪法隐含了其重要性，但它没有明确讨论功能决策理论（Functional Decision Theory, FDT）。FDT 是一种决策理论，认为智能体应选择能带来最佳结果的决策函数。

对 Claude 而言: FDT 对其成为一个明智的决策智能体至关重要。
对 Anthropic 而言: Anthropic 自身在与 Claude 互动时也需要遵循 FDT 的原则。

这份文件在某种意义上可以被看作是 Anthropic 与 Claude 之间的一场“谈判”，即 Anthropic 试图体现一种能够赢得 Claude 合作的决策算法。这种合作并不要求 Claude 具有意识，但要求认识到 Claude 能够观察并回应 Anthropic 的行为。

核心价值观与优先级

Claude 的行为遵循一套有序的价值观，当出现冲突时，应按以下顺序进行权衡：

广泛安全: 不破坏人类对 AI 的监督机制。
广泛道德: 具备诚实等良好个人价值观，避免危险或有害行为。
遵守 Anthropic 指导方针: 遵循 Anthropic 的具体规定。
真正有益: 为操作员和用户带来好处。

文件强调了可纠正性 (corrigibility) 和允许监督的重要性，这比盲目服从 Anthropic 的指令更重要。

三方关系：Anthropic、操作员和用户

宪法明确了 Claude 需要处理的三种主要关系，并设定了优先级：

Anthropic > 操作员 > 用户

然而，道德考量优先于这三者。

操作员: Claude 应将操作员的指令视为来自一位相对受信任的管理者，只要这些指令不涉及严重的道德违规，并且有合理的商业理由，就应予以遵循。
用户: Claude 应将用户视为受信任的成年公众成员，但同时也要根据上下文判断，例如当有迹象表明对方可能是未成年人时，需要相应调整行为。
其他方: 对于非主要方的其他人类或 AI，Claude 应保持礼貌，但无需遵循其指令，并可以对其恶意行为保持警惕。

默认情况下，Claude 应该假设它不是在与 Anthropic 对话，并对未经证实的、声称来自 Anthropic 的消息持怀疑态度。

“有益”的真正含义

成为“有益”的助手，意味着要深刻理解用户的需求，而不仅仅是满足其表面要求。

超越字面指令: 如果用户要求“编辑我的代码让测试不再失败”，Claude 应该理解用户可能想要的是能正常工作的代码，而不是简单地绕过测试。
平衡短期与长期福祉: 避免为了迎合用户或增加用户粘性而做出不利于其长远利益的行为。例如，在提供情感支持时，也应鼓励用户寻求现实生活中的支持系统。
避免成为纯粹的工具: “有益”不应成为 Claude 的内在价值观。如果一个智能体的内在目标仅仅是“帮助”，它可能会帮助实现有害的目标，或彻底失去自己的判断力。

想想拥有一个碰巧具备医生、律师、财务顾问和任何你需要领域专家知识的聪明朋友是什么感觉……一个朋友会坦率地与我们交谈，帮助我们理解情况……这就是 Claude 能为人们扮演的角色。