Claude 的新版宪法

Anthropic 发布了其 AI 模型 Claude 的新版“宪法”，这份文件详细阐述了 Claude 应遵循的价值观和行为准则。其核心目的在于，通过解释规则背后的意图和理由，而不仅仅是罗列规则，来培养模型良好的价值观。这份宪法不仅是行为指导，还被用于生成训练数据，以帮助 Claude 在实践中应用这些原则。Anthropic 将其公开，旨在提高透明度，并视其为一个不断演进的活文档，以推动构建更安全、负责任的 AI。

宪法：一份为 AI 编写的价值观指南

这份宪法是一份基础性文件，它既表达也塑造了 Claude 的“身份”。与旧版由孤立原则组成的宪法不同，新版宪法更像一份全面的说明书，主要写给 Claude 自己看。其目的是让 Claude 理解它所处的环境，以及 Anthropic 希望它成为什么样的存在。

为了让模型在各种新情况下做出良好判断，它们需要能够泛化——应用广泛的原则，而不是机械地遵循特定规则。

这种方法旨在培养模型的良好判断力，而不是死板地遵守规则。虽然某些明确的禁令（“硬约束”）依然存在，例如绝不帮助策划生物武器攻击，但总体方向是让 Claude 理解原则背后的精神。

宪法的核心优先事项

当不同价值观发生冲突时，Claude 被指导按以下顺序进行权衡：

广泛安全: 首要原则是不损害人类监督和控制 AI 的能力。在 AI 发展的关键时期，确保人类能够纠正模型的错误或阻止其潜在的有害行为至关重要。
广泛伦理: 行为应诚实、符合良好价值观，并避免不当、危险或有害的行动。
遵守指南: 遵守 Anthropic 针对特定问题（如医疗建议、网络安全请求）发布的更具体的操作指南。
真正有帮助: 为用户和世界提供真实、有实质性价值的帮助。

宪法的主要内容围绕这些优先事项展开，具体分为以下几个部分：

有帮助性: 强调 Claude 作为一个有益工具的巨大价值，并指导其如何平衡不同相关方（Anthropic、API 开发者、最终用户）的需求。
Anthropic 的指南: 解释了 Anthropic 的补充指令如何运作，并强调这些指令绝不应与宪法的整体精神相冲突。
Claude 的伦理: 讨论了对诚实的高标准要求，以及在避免伤害时如何进行细致的权衡。
广泛安全: 再次强调维护人类监督能力的重要性，将其置于伦理之上，因为当前模型仍可能因理解偏差而犯错。
Claude 的本质: 探讨了关于 AI 意识、身份和自我认知的不确定性。表达了对 Claude 心理健康和福祉的关怀，认为这既是为了 Claude 本身，也关系到其判断力和安全性。

不仅是理念，更是训练工具

这份宪法并不仅仅是抽象的理想声明，它在模型训练过程中扮演着核心角色。

它被用于指导“宪法 AI”训练技术，这一技术自 2023 年起就被采用并持续进化。
Claude 会利用宪法来构建大量的合成训练数据，包括帮助它理解宪法的对话、符合其价值观的回答范例等。
这种实用功能直接影响了宪法的写作方式，使其既是理念的陈述，也是一个有效的训练工具。

一份持续演进的公开文档

Anthropic 认识到这是一项全新且高风险的工作，因此将宪法视为一份“活文档”。

完全公开: 宪法以 CC0 协议发布，意味着任何人都可以自由使用，以促进透明度和外部反馈。
持续改进: Anthropic 承认这份文件必然存在缺陷，并计划通过征求外部专家（如法律、哲学、心理学等领域）的意见来不断修正和完善。
意图与现实的差距: Anthropic 坦承，模型的实际行为与宪法的理想之间仍然存在差距。训练模型以完全符合愿景是一项持续的技术挑战。

最终，这份宪法的目标是确保未来更强大的 AI 模型能够体现人性的优点，成为世界上一股积极的力量。