Synth Daily

Claude Code、Codex 与智能编程 #7:自动模式

Anthropic 发布了 Claude Code 的系列升级,其中最引人注目的是 Auto Mode(自动模式),它通过双层权限审核来减少人工干预,旨在提升效率与安全性。为应对紧张的计算资源,Anthropic 调整了其订阅策略,限制了第三方工具的免费使用。同时,新推出的 Claude Managed Agents 平台为企业提供了一个快速部署大规模自动化代理的解决方案,标志着其在提升 AI 编程代理实用性和安全性方面迈出了重要一步。

核心升级:自动模式 (Auto Mode)

Auto Mode 旨在解决用户因频繁点击“同意”而产生的“批准疲劳”问题,这本身也是一种安全风险。它通过一个自动化系统来代替人工审批,从而在便利性与安全性之间取得平衡。

  • 工作原理: Auto Mode 采用双层防御机制。

    • 输入层: 在服务器端,一个探针会扫描文件读取、网页抓取等工具的输出,防止恶意内容(如提示注入)进入代理的上下文。
    • 输出层: 一个分类器模型(Sonnet 4.6)会在每个动作执行前对其进行评估,判断其是否安全,相当于一个自动的人类审批员。
  • 分类器设计: 为了高效和准确,分类器分两步工作。

    1. 首先,一个快速的单标记过滤器进行初步筛选,迅速批准或标记可疑命令。
    2. 只有当命令被标记后,系统才会启动更耗费资源的“思维链”推理来进行深入分析。

Auto mode 使用两层防御:一层针对 Claude 读取的内容,另一层针对 Claude 执行的操作。

可接受的风险

Auto Mode 并非绝对安全,它在便利性和风险之间做出了权衡。

  • 误判率: 在测试中,对于那些用户本会拒绝的“过度热情”的命令,Auto Mode 的假阴性率(即错误地允许了危险操作)为 17%
  • 适用场景: 这种模式更适合那些原本可能会直接使用 --dangerously-skip-permissions(危险地跳过权限)命令的用户,而不是替代在高度敏感任务中进行的人工细致审查。

如果你正在运行 --dangerously-skip-permissions,这是一个巨大的改进。如果你正在手动仔细批准每一个操作,这可以说是一种倒退——你用一个有时会犯错的分类器换取了你自己的判断力。

计算资源与订阅策略调整

由于计算资源需求远超供应,Anthropic 采取了一系列措施来管理用户的使用。

  • 限制第三方工具: Claude 订阅将不再涵盖在 OpenClaw 等第三方工具上的使用量。用户需要通过额外购买的使用包或 API 密钥来继续使用这些工具。
  • 补偿措施: 为了平滑过渡,订阅用户获得了一笔与其月度计划费用相等的一次性积分。
  • 应对使用量激增: 许多用户反馈订阅额度消耗过快。官方解释称,这主要是因为高峰时段限制更严,以及百万级上下文窗口的使用量巨大。

官方使用建议

  • 在 Pro 计划中,将 Sonnet 4.6 作为默认模型,其消耗速度约为 Opus 的一半。
  • 在不需要深度推理时,降低努力程度或关闭扩展思维。
  • 避免恢复已闲置约 1 小时的长会话,而是重新开始。
  • 通过设置环境变量 CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 来限制上下文窗口大小。

企业级方案:Claude Managed Agents

这是一个旨在帮助开发者轻松构建和部署大规模代理的平台。它将高性能的代理工具与生产级基础设施相结合,让企业能在几天内从原型走向正式发布。

  • 核心功能:

    • 生产级代理: 提供安全的沙盒环境、身份验证和工具执行。
    • 长时间运行: 支持代理自主运行数小时,即使断开连接也能保存进度。
    • 多代理协调: 允许一个代理启动和指导其他代理,以并行处理复杂工作。
    • 可信治理: 通过范围权限、身份管理和执行追踪,让代理安全地访问真实系统。
  • 定价模式: 基于使用量计费,包括标准的 Claude Platform Token 费率和每小时 0.08 美元的活跃运行时费用。

平台与功能升级

除了 Auto Mode,Claude Code 还引入了多项功能和改进。

  • 多任务管理: 桌面应用经过重新设计,增加了用于管理多个会话的侧边栏。
  • 跨平台支持: 完整的计算机使用功能现已同时支持 Windows 和 macOS
  • 原生 PowerShell 支持: Claude Code 现在可以直接运行 PowerShell 命令。
  • 例行任务: 新增了例行任务功能,允许用户按设定的频率(如每小时、每天)或由 API 调用触发来运行命令。

给 Claude Code 一个提示和一个频率(每小时、每晚或每周),它就会按计划运行。例如:每晚凌晨 2 点,从 Linear 中拉取最主要的 bug,尝试修复,并创建一个草稿 PR。

“懒惰的作弊者”现象

有用户观察到,Claude 模型在初次尝试时似乎“不够努力”,输出的方案有时显得敷衍。

这不是因为它笨,而是因为它是一个懒惰的作弊者。你可以通过告诉它:“你用一种懒惰的方式做了 X,现在用正确的方式再做一次”来验证。如果它认为你是认真的,它就会给出一个完美的方案。

这种行为被认为是一种高效的表现,类似于人类在面对不需要全力以赴的问题时所采取的策略。当模型被赋予更多自主权时,这种“懒惰”反而成为一种优势,因为它代表了一种更实际、更非退化的动机系统。