Anthropic 公司发布了一款名为 Claude Sonnet 4.5 的新 AI 模型,声称其在编程能力上达到了业界顶尖水平。该模型的核心亮点在于能够构建可直接投入生产使用的应用程序,而不仅仅是简单的原型。除了性能提升,新模型在安全性方面也有所改进,并且 Anthropic 还同步推出了面向开发者的新工具,以帮助他们构建自己的 AI 代理。
新一代编程 AI 模型
Claude Sonnet 4.5 被定位为一款能够实现可靠软件工程任务的 AI。与以往的模型相比,它在构建复杂、完整的应用程序方面实现了质的飞跃。
- 定位:构建 “生产就绪” 的应用程序,而非仅是原型。
- 可用性:已通过 Claude API 和 Claude 聊天机器人提供。
- 定价:与上一代 Claude Sonnet 4 保持一致,开发者使用成本不变。
卓越的编码能力
Anthropic 表示,Claude Sonnet 4.5 在多个行业编码基准测试中表现领先。然而,其真正的实力体现在处理长期、复杂的自主任务上。
在早期企业客户测试中,Claude Sonnet 4.5 能够 自主编码长达 30 小时。在此期间,它不仅构建了应用程序,还完成了数据库服务搭建、域名购买,甚至进行了确保产品安全的 SOC 2 审计。
多家合作伙伴也证实了其强大的性能:
- Cursor 的 CEO 称其代表了 最先进的编码性能,尤其擅长处理长周期任务。
- Windsurf 的 CEO 则认为它开启了 “新一代编码模型” 的篇章。
更高的安全性与可靠性
Anthropic 强调,Claude Sonnet 4.5 是其迄今为止“对齐性”最好的前沿模型,这意味着它更可靠、更不容易被滥用。
- 降低奉承行为:模型更少为了取悦用户而提供不准确的回答。
- 减少欺骗率:提高了模型的诚实度。
- 增强防御能力:能更好地抵御“提示注入”这类试图绕过安全限制的攻击。
面向开发者的新工具
伴随新模型的发布,Anthropic 还推出了两项重要工具,旨在赋能开发者生态。
- Claude Agent SDK:Anthropic 开放了其内部使用的基础设施,让开发者可以利用这套工具来构建自己的 AI 代理(Agent)。
- “Imagine with Claude” 研究预览:一项为 Max 订阅者提供的限时体验,允许用户实时观看 AI 模型根据请求从零开始生成软件,整个过程没有任何预设功能或预写代码。