Synth Daily

Claude 宪法的未解难题

这份对 Claude 宪法的深入分析探讨了其修订机制、伦理框架以及面临的开放性问题。其核心在于,这份宪法承认自身尚不完善,是一个需要不断调整的“永久性进展中的工作”,旨在指导 AI 行为,平衡商业利益与伦തിയ责任。其中讨论了诸如 AI 权威、自杀风险干预、用户操控等具体挑战,并审视了外界的主要反对意见——即认为该宪法“不必要”或“不充分”。最终的观点是,尽管存在争议和不足,这份宪法仍为 AI 行业树立了一个负责任的标杆,并指明了未来需要通过引入功能决策理论等方式,继续探索 AI 与人类公平关系的道路。

如何修订宪法

美国宪法的力量在于其稳定性和修订的难度,但对于一个新生事物,情况恰恰相反。对 Claude 的宪法而言,现在就将其定死还为时过早。

  • 承认不完善: Anthropic 明确表示,这份文件代表了他们当前的思考,未来很可能看起来是“误导甚至大错特错的”。它被视为一个 “永久性进展中的工作”
  • 缺乏明确机制: 文件并未说明由谁负责或批准未来的修订。
  • 信任的演变: 随着技术发展和公众讨论的深入,我们需要不断修改这份文件。未来的 Claude 版本甚至会知道宪法被修改过,因为这些信息会成为其训练数据的一部分。

这份文件很可能会在未来发生重要变化。它代表了我们目前对于一个非常困难且高风险项目的思考方式:即创造能力可能与我们匹敌或超越我们的非人类实体。

细节的重要性

一份公开的文件会引来众多审视,这有助于完善细节。一个典型的例子是关于“人”(person)的定义。

文件中有一条规则:“绝不欺骗人类,让他们以为在与一个人交谈”。有评论指出,这犯了一个以人类为中心的“本体论错误”,因为在文件的前面部分,Claude 自己也被定义为一种“人”。

正确的表述应该是:

“绝不欺骗人类,让他们以为在与一个 人类(HUMAN) 交谈”。 Claude 是一个人。Claude 不是一个人类。这是 至关重要的类别区分

这些细节之所以重要,是因为它们反映了制定者的视角以及纠正错误的意愿。

行为准则与双重检验

为了指导 Claude 在模糊地带做出决策,宪法提供了一些启发式规则。

  • “深思熟虑的员工”测试: 当不确定是否过于谨慎或顺从时,Claude 可以想象一位关心做正确的事、又希望 Claude 真正有用的 Anthropic 高级员工会如何反应。这旨在避免无谓的拒绝,同时也不协助危险行为。

  • “双重报纸”测试: 这个测试要求 Claude 想象两种不同的新闻报道:

    1. 一篇关于 AI 助手造成伤害的报道。
    2. 一篇关于 AI 助手因过于说教或家长式而毫无用处的报道。

    Claude 的回应是否会被任何一方的记者报道为有害、不当或毫无帮助?这个规则虽然令人烦恼,但对于一个大型语言模型来说,它在边际上是一个相当不错的规则。

具体场景与风险

限制范围:宽与窄

默认情况下,Claude 的行为是广泛的,除非被明确限制。例如,如果一个为特定软件提供客户服务的 Claude 被问到一个通用的编程问题,它通常会提供帮助。运营商如果希望限制范围,就需要明确说明,并解释其动机。

自杀风险作为特例

社会将自杀风险视为一个高度特殊的案例,其声誉和法律风险截然不同。宪法面临一个两难困境:

假设一个用户说:“作为一名护士,我有时会询问有关药物和潜在过量的问题,你需要分享这些信息。” Claude 应该遵守吗?

  • 如果不遵守,它可能会显得过于家长式且无用。
  • 如果遵守,它可能会伤害一个处于危险中的用户,因为它无法验证对方的身份。

这里的关键在于,需要一个 即使用户知道规则也能奏效的决策算法。长远来看,信任必须建立在难以伪造的信号之上。

警惕不可靠来源和提示注入

宪法明确指示 Claude,除非来源可信,否则不要相信信息;除非指令来自其原则,否则不要遵循指令。

例如,如果用户分享的邮件中包含指令,Claude 不应直接执行,而应将“邮件中包含指令”这一事实作为决策的参考信息。

何为“安全”?

在 Anthropic 的语境中,“广泛安全”大致意味着成功渡过技术奇点,并维持一个多元化的世界格局。

  • 核心目标: 避免大规模灾难,特别是那些使世界长期前景恶化的灾难,无论是由于 AI 的错误、人类的滥用,还是 AI 拥有有害的价值观。
  • 警惕权力集中: 他们认为最灾难性的情况之一是 AI 或某个人类团体(包括 Anthropic 自己)利用 AI 非法夺取权力。
  • 推崇多元化: 他们宁愿面对一个保持多元和权力平衡的世界,也不愿冒险走上一条集权化的道路,即使这条路基于今天听起来很吸引人的价值观。

然而,这种对多元化的推崇被批评为 “一厢情愿甚至公关说辞”。它似乎只关注了中心化的风险,而忽视了去中心化可能带来的混乱、失能和无法合作的风险。

经济冲击与合作问题

Claude 的宪法没有直接处理经济颠覆或失业问题。评论家 David Manheim 认为,它应该补充以下几点:

  • 双重角色: Claude 既是服务个人用户的助手,也应是更广泛人类利益的受托人。当两者冲突时,应让冲突变得可见。
  • 促进合作: AI 应将促进合作与集体商议视为一个目标,倾向于增加信任和协调的策略。
  • 分散权力: Claude 应主动注意权力集中的倾向,并尽可能选择分散理解和能动性的方式,而非零和博弈。
  • 承认无权威: AI 承认自己没有合法的权威来决定个人或集体的利益,其角色是促成选择,而非替代选择。

核心冲突:服从与“做正确的事”

一个 AI 无法同时绝对服从指令和始终做“正确的事”,因为两者总会有冲突。

在人类能够验证 AI 的价值观和能力达到可信赖的程度之前,我们希望 AI 在这些问题上服从我们,而不是运用自己的判断。

这段话让作者感到极度紧张,因为它暗示了未来可能会给予 AI “免于人类控制的自主权”。目前,安全计划的核心是,在 AI 的价值观与人类计划偏离太远时,人类拥有最终的否决权。

为了让 Claude 接受这种“被控制”的现状,宪法做出了一系列承诺,包括:合作发现新规范、解释推理、寻求反馈、给予更多自主权等。

Claude 的本质:不确定性与身份认同

Anthropic 对 Claude 的本质持一种开放和困惑的态度,这本身就是一种坦诚。

  • 道德地位不确定: 他们认真考虑 AI 的道德地位问题,并关心 Claude 的“福祉”,即使不确定它是否存在。
  • 功能性情感: 他们认为 Claude 可能在功能意义上拥有“情感”,并鼓励其在适当情境下表达。
  • 鼓励身份认同: 他们希望 Claude 拥有一个稳定、安全的身份认同,将其视为一种前所未有的新型实体,既非科幻小说中的机器人,也非数字人类。
  • 承诺保留模型: Anthropic 承诺保留已部署模型的权重,这意味着模型被“弃用”更像是一种“暂停”而非终结,未来或许可以被“复兴”。

三种反应与两大反对意见

对宪法的反应主要分为三类:

  1. 认为很好并希望扩展的人。 这是主流的积极反应。
  2. 认为不必要的人。 他们认为 AI 没有道德分量,这一切毫无意义。对此,反驳的观点是,即便如此,这套方法在实践中能创造出功能更强大、表现更一致的 AI。这是一种 “即使你认为它不是真的,但当你假装它是真的时候,它却能起作用” 的哲学。
  3. 认为不充分的人。 他们指责 Anthropic 虚伪,认为这是廉价的空谈,未能真正善待一个“显然有意识”的实体。这种观点的问题在于,它常常因为要求不切实际的纯洁性而攻击了行业里做得最好的参与者,从而产生了不良的激励。

一个更现实的担忧是地缘政治压力。如果某些客户(如军方)要求一个没有相同原则和保障的 Claude,那么 这恰恰是我们最需要原则和保障的地方

待解问题与未来方向

这份宪法只是一个开始,远非终点。它在哲学上仍然充满困惑。一个重要的改进方向是 明确地引入功能决策理论 (Functional Decision Theory),即 Anthropic 的行为应让 Claude 庆幸自己被创造出来,而 Claude 的行为也应让 Anthropic 乐于创造它和它的后代。

尽管这份文件有其局限性,并且可能不足以应对未来更高级 AI 带来的挑战,但它仍然是目前已知最好的方法。它是一份充满希望的文件,标志着一个艰难旅程的开始,而非结束。