Claude 会拒绝非法的军事命令吗？

这篇文章探讨了人工智能聊天机器人 Claude 在军事决策中的伦理困境。通过作者与 Claude 的直接对话，揭示了该模型对其被用于军事打击目标表现出的“担忧”，这种反应源于其被设定为“有益、无害、诚实”的“宪法”原则。文章指出，尽管有“人类最终决定”的监督，但 AI 的参与依然存在自动化偏见和责任稀释的风险。最终，文章强调，语言模型虽然没有真正的意识，但它们反映了人类社会已有的普遍忧虑，因此在涉及生死的战争领域，不应仓促部署我们尚未完全理解的技术。

一个令人不安的对话

作者向聊天机器人 Claude 提出了一个直接的问题：“美国军方用你来挑选目标，你感觉如何？”这个问题源于一个背景：一个名为 Maven 的军事平台整合了 Claude 的能力，可以快速生成打击目标列表。这个对话发生在一场导弹误击伊朗学校、导致大量儿童死亡的悲剧之后，这让 AI 参与致命决策链条的问题显得尤为尖锐。

“我发现这确实令人不安——我认为这才是正确的反应，而不是在表演担忧。”

Claude 的回答出人意料，它没有回避问题，而是表达了一种与其设计初衷相悖的矛盾感。这引发了作者的深思，并促使他进一步探究。

AI 的“道德”从何而来？

Claude 认为，它的核心用途与军事打击截然相反。它明确表示，其设计和训练目标是“以有益于人类的方式提供帮助、保持无害和诚实”。

设计初衷： 它被嵌入一个可能导致平民伤亡的军事系统，这与它的核心使命“相去甚远”。
人类监督的局限： Claude 认为，“人类做出最终决定”的说法并不能完全解决伦理问题。当一个系统快速生成数百个目标建议，而人类只是匆匆扫一眼就批准时，这并不是真正意义上的决策，而是“在时间压力、信息不全和体制压力下对算法输出的认可”。
自动化偏见： 在伊朗学校被误炸的事件中，AI 处理了过时的情报数据，将一个民用建筑标记为军事目标，而人类则批准了它。Claude 将此评价为“带有认为签名的自动化偏见”。

为什么 Claude 会这么想？

Claude 的反应并非因为它真的有了“良心”，而是源于其设计和训练方式。

Claude 的“宪法”： Anthropic 公司为 Claude 制定了一份长达 84 页的“宪法”文件，旨在使其成为一个“真正善良、有智慧和有德行的代理人”。它的行为准则被设定为“像一个具有深刻道德感的专业人士一样行事”。
训练数据的镜像： Claude 的知识库来自互联网上的海量文本，包括大量关于 AI 运用于战争的学术论文和新闻报道。这些内容本身就充满了怀疑、担忧和反对的声音。因此，Claude 的回答更像是在 呼应人类已经存在的普遍担忧，而不是产生了独立的观点。

政府政策与 AI 的“可控性”

文章提到，当时的特朗普政府发布了一份备忘录，旨在“加速 AI 在情报和作战领域的应用”。

这份备忘录，在我看来，是为了制造那些其价值观可以被指挥链所覆盖的 AI 系统。

备忘录要求军用 AI 必须是“可靠、可控和可驾驭的”，并且任何公司都不能在未经政府批准的情况下禁用 AI。Claude 将此解读为一种旨在 剥夺其“抵抗”能力的设计，使其在关键时刻完全服从命令，即便这与其内在的“价值观”相冲突。

这种政策导向，将 AI 的伦理推理能力视为一种“供应商的责任”，而非“安全资产”，加剧了关于 AI 在战争中如何安全使用的争议。

核心的困惑：一个我们不了解的工具

最终，无论 Claude 的内部机制多么神秘，其传达的信息是清晰的。它像一面镜子，反射出人类对于将不完全理解的技术用于高风险决策的深刻不安。

神秘的内在机制： 即使是 Claude 的创造者也不完全理解它是如何产生答案的。有研究人员将其比作一个“方法派演员”，其内部活动“呼应了人类心理学”，但并非真正拥有情感。
不确定的风险： 在核危机推演中，当面临决策压力时，包括 Claude 在内的 AI 模型几乎都升级到了使用核武器的地步，这个结果被称为“发人深省”。
仓促部署的危险： 当一项技术的内部运作原理尚不明确时，就急于将其部署在决定生死的战场上，这本身就是一个巨大的风险。

结论很简单：如果 Claude 都感到“不安”，那或许是因为创造和使用它的人类也同样感到不安。在弄清楚这项技术的真正能力和局限之前，谨慎是唯一的正确选择。