Claude代码泄露风波：伪工具、令人抓狂的正则表达式与隐秘模式

Anthropic 最近因技术失误泄露了其开发工具 Claude Code 的完整源代码。这次事件不仅暴露了 Anthropic 防止竞争对手“偷学”模型的防蒸馏技术、能够隐藏 AI 身份的“卧底模式”，还揭示了一个名为 KAIROS 的未发布自主代理计划。这次泄露揭示了 AI 巨头在商业竞争与技术防护上的底层逻辑，同时也讽刺地显示出，即便最先进的 AI 公司也会被简单的正则表达式和底层工具链的 Bug 所困扰。

核心发现：防“偷师”的虚假陷阱

为了防止竞争对手通过抓取 Claude Code 的 API 流量来训练自己的模型（即“模型蒸馏”），Anthropic 在代码中内置了多重防御机制。

注入虚假工具：当检测到特定标识时，服务器会向系统提示词中注入伪造的工具定义。如果有人利用这些流量进行训练，虚假数据就会污染其训练集。
服务器端摘要：在某些测试版中，API 会将 AI 的推理过程进行摘要处理并加上加密签名，返回给客户端。这意味着监听流量的人只能看到结果摘要，而无法获取完整的推理链条。
法律重于技术：源码显示这些技术手段其实很容易被绕过（例如通过代理删除特定请求头）。Anthropic 真正的防御盾牌更多是法律手段，而非密不透风的技术墙。

“卧底模式”：隐藏身份的 AI 贡献者

代码中包含一个名为 undercover.ts 的文件，实现了一种隐秘模式。

抹除痕迹：该模式会指示 AI 禁止提及 Anthropic 的内部代号（如 Capybara、Tengu）、内部 Slack 频道或“Claude Code”这个名字本身。
无法关闭：在外部版本中，这个功能是“单向门”，没有强制关闭的选项。
争议点：这意味着 Anthropic 员工在参与开源项目时，AI 生成的提交记录和代码审查可能看起来完全像人类操作，没有任何 AI 参与的标识。

正则表达式检测情绪：最高级的讽刺

令人意外的是，作为一家顶尖的深度学习公司，Anthropic 竟然使用正则表达式（Regex）来检测用户是否在生气。

脏话库：代码中维护了一个长长的正则列表，用来匹配用户输入的各种脏话和挫败感词汇。
实用主义：虽然被社区嘲讽为“高峰讽刺”，但在工程上这比调用 LLM 来分析情绪要快得多、也便宜得多。

数字化版权管理（DRM）与底层认证

Anthropic 正在对其 API 调用实施类似 DRM（数字版权管理）的保护。

源码显示，API 请求中包含一个占位符。在请求发出前，底层二进制文件会计算一个哈希值并填入，以证明该请求来自官方客户端，而非第三方破解工具。

这也是 Anthropic 之前向第三方工具 OpenCode 发出法律威胁的技术背景：他们希望严防死守，确保用户只能通过官方渠道访问低价的订阅制 API，而不是绕过限制使用昂贵的按量计费接口。

路线图泄露：神秘的 KAIROS 项目

泄露的代码中最具商业杀伤力的部分是一个代号为 KAIROS 的功能，这被认为是一个尚未发布的自主代理（Autonomous Agent）模式：

全天候运行：支持后台守护进程和每 5 分钟一次的定时任务。
自主学习：拥有“夜间记忆蒸馏”功能和每日日志记录。
GitHub 集成：支持 Webhook 订阅，能自动处理远程仓库变动。

为什么会发生这种低级错误？

这次严重的源码泄露很可能源于一个已知的工具链漏洞。

Bun 的 Bug：Anthropic 去年收购了开发工具 Bun，而 Claude Code 正是基于 Bun 构建的。Bun 存在一个已知问题：即便在生产模式下，也可能错误地发送包含完整源码的 .map 文件。
讽刺的现实：一个顶尖 AI 公司的核心商业机密，最终因为自己收购的工具里一个没修好的 Bug 而公之于众。正如网友评论：“当你让 AI 帮你写代码时，不小心把源码发到网上这种错误就不再显得那么不可思议了。”