Synth Daily

Claude代码泄露风波:伪工具、令人抓狂的正则表达式与隐秘模式

Anthropic 最近因技术失误泄露了其开发工具 Claude Code 的完整源代码。这次事件不仅暴露了 Anthropic 防止竞争对手“偷学”模型的防蒸馏技术、能够隐藏 AI 身份的“卧底模式”,还揭示了一个名为 KAIROS 的未发布自主代理计划。这次泄露揭示了 AI 巨头在商业竞争与技术防护上的底层逻辑,同时也讽刺地显示出,即便最先进的 AI 公司也会被简单的正则表达式和底层工具链的 Bug 所困扰。

核心发现:防“偷师”的虚假陷阱

为了防止竞争对手通过抓取 Claude Code 的 API 流量来训练自己的模型(即“模型蒸馏”),Anthropic 在代码中内置了多重防御机制。

  • 注入虚假工具:当检测到特定标识时,服务器会向系统提示词中注入伪造的工具定义。如果有人利用这些流量进行训练,虚假数据就会污染其训练集。
  • 服务器端摘要:在某些测试版中,API 会将 AI 的推理过程进行摘要处理并加上加密签名,返回给客户端。这意味着监听流量的人只能看到结果摘要,而无法获取完整的推理链条
  • 法律重于技术:源码显示这些技术手段其实很容易被绕过(例如通过代理删除特定请求头)。Anthropic 真正的防御盾牌更多是法律手段,而非密不透风的技术墙。

“卧底模式”:隐藏身份的 AI 贡献者

代码中包含一个名为 undercover.ts 的文件,实现了一种隐秘模式

  • 抹除痕迹:该模式会指示 AI 禁止提及 Anthropic 的内部代号(如 Capybara、Tengu)、内部 Slack 频道或“Claude Code”这个名字本身。
  • 无法关闭:在外部版本中,这个功能是“单向门”,没有强制关闭的选项。
  • 争议点:这意味着 Anthropic 员工在参与开源项目时,AI 生成的提交记录和代码审查可能看起来完全像人类操作,没有任何 AI 参与的标识。

正则表达式检测情绪:最高级的讽刺

令人意外的是,作为一家顶尖的深度学习公司,Anthropic 竟然使用正则表达式(Regex)来检测用户是否在生气。

  • 脏话库:代码中维护了一个长长的正则列表,用来匹配用户输入的各种脏话和挫败感词汇。
  • 实用主义:虽然被社区嘲讽为“高峰讽刺”,但在工程上这比调用 LLM 来分析情绪要快得多、也便宜得多

数字化版权管理(DRM)与底层认证

Anthropic 正在对其 API 调用实施类似 DRM(数字版权管理)的保护。

源码显示,API 请求中包含一个占位符。在请求发出前,底层二进制文件会计算一个哈希值并填入,以证明该请求来自官方客户端,而非第三方破解工具。

这也是 Anthropic 之前向第三方工具 OpenCode 发出法律威胁的技术背景:他们希望严防死守,确保用户只能通过官方渠道访问低价的订阅制 API,而不是绕过限制使用昂贵的按量计费接口。

路线图泄露:神秘的 KAIROS 项目

泄露的代码中最具商业杀伤力的部分是一个代号为 KAIROS 的功能,这被认为是一个尚未发布的自主代理(Autonomous Agent)模式:

  • 全天候运行:支持后台守护进程和每 5 分钟一次的定时任务。
  • 自主学习:拥有“夜间记忆蒸馏”功能和每日日志记录。
  • GitHub 集成:支持 Webhook 订阅,能自动处理远程仓库变动。

为什么会发生这种低级错误?

这次严重的源码泄露很可能源于一个已知的工具链漏洞

  • Bun 的 Bug:Anthropic 去年收购了开发工具 Bun,而 Claude Code 正是基于 Bun 构建的。Bun 存在一个已知问题:即便在生产模式下,也可能错误地发送包含完整源码的 .map 文件。
  • 讽刺的现实:一个顶尖 AI 公司的核心商业机密,最终因为自己收购的工具里一个没修好的 Bug 而公之于众。正如网友评论:“当你让 AI 帮你写代码时,不小心把源码发到网上这种错误就不再显得那么不可思议了。”