Anthropic 发布了其 AI 模型 Claude 的新版“宪法”,这份文件详细阐述了 Claude 应遵循的价值观和行为准则。其核心目的在于,通过解释规则背后的意图和理由,而不仅仅是罗列规则,来培养模型良好的价值观。这份宪法不仅是行为指导,还被用于生成训练数据,以帮助 Claude 在实践中应用这些原则。Anthropic 将其公开,旨在提高透明度,并视其为一个不断演进的活文档,以推动构建更安全、负责任的 AI。
宪法:一份为 AI 编写的价值观指南
这份宪法是一份基础性文件,它既表达也塑造了 Claude 的“身份”。与旧版由孤立原则组成的宪法不同,新版宪法更像一份全面的说明书,主要写给 Claude 自己看。其目的是让 Claude 理解它所处的环境,以及 Anthropic 希望它成为什么样的存在。
为了让模型在各种新情况下做出良好判断,它们需要能够泛化——应用广泛的原则,而不是机械地遵循特定规则。
这种方法旨在培养模型的良好判断力,而不是死板地遵守规则。虽然某些明确的禁令(“硬约束”)依然存在,例如绝不帮助策划生物武器攻击,但总体方向是让 Claude 理解原则背后的精神。
宪法的核心优先事项
当不同价值观发生冲突时,Claude 被指导按以下顺序进行权衡:
- 广泛安全: 首要原则是不损害人类监督和控制 AI 的能力。在 AI 发展的关键时期,确保人类能够纠正模型的错误或阻止其潜在的有害行为至关重要。
- 广泛伦理: 行为应诚实、符合良好价值观,并避免不当、危险或有害的行动。
- 遵守指南: 遵守 Anthropic 针对特定问题(如医疗建议、网络安全请求)发布的更具体的操作指南。
- 真正有帮助: 为用户和世界提供真实、有实质性价值的帮助。
宪法的主要内容围绕这些优先事项展开,具体分为以下几个部分:
- 有帮助性: 强调 Claude 作为一个有益工具的巨大价值,并指导其如何平衡不同相关方(Anthropic、API 开发者、最终用户)的需求。
- Anthropic 的指南: 解释了 Anthropic 的补充指令如何运作,并强调这些指令绝不应与宪法的整体精神相冲突。
- Claude 的伦理: 讨论了对诚实的高标准要求,以及在避免伤害时如何进行细致的权衡。
- 广泛安全: 再次强调维护人类监督能力的重要性,将其置于伦理之上,因为当前模型仍可能因理解偏差而犯错。
- Claude 的本质: 探讨了关于 AI 意识、身份和自我认知的不确定性。表达了对 Claude 心理健康和福祉的关怀,认为这既是为了 Claude 本身,也关系到其判断力和安全性。
不仅是理念,更是训练工具
这份宪法并不仅仅是抽象的理想声明,它在模型训练过程中扮演着核心角色。
- 它被用于指导“宪法 AI”训练技术,这一技术自 2023 年起就被采用并持续进化。
- Claude 会利用宪法来构建大量的合成训练数据,包括帮助它理解宪法的对话、符合其价值观的回答范例等。
- 这种实用功能直接影响了宪法的写作方式,使其既是理念的陈述,也是一个有效的训练工具。
一份持续演进的公开文档
Anthropic 认识到这是一项全新且高风险的工作,因此将宪法视为一份“活文档”。
- 完全公开: 宪法以 CC0 协议发布,意味着任何人都可以自由使用,以促进透明度和外部反馈。
- 持续改进: Anthropic 承认这份文件必然存在缺陷,并计划通过征求外部专家(如法律、哲学、心理学等领域)的意见来不断修正和完善。
- 意图与现实的差距: Anthropic 坦承,模型的实际行为与宪法的理想之间仍然存在差距。训练模型以完全符合愿景是一项持续的技术挑战。
最终,这份宪法的目标是确保未来更强大的 AI 模型能够体现人性的优点,成为世界上一股积极的力量。