Anthropic 推出 Claude Sonnet 5，作为运行智能体的更低成本选择

Anthropic 推出了 Claude Sonnet 5，这是一款旨在让高级自主任务（即“智能体”能力）变得更普及、更经济的 AI 模型。其核心优势在于以更低的成本提供了接近顶级模型 Opus 4.8 的性能，尤其在编码、推理和知识工作中表现出色。该模型不仅提升了自主完成复杂任务的能力，还在安全性上有所增强，能够更好地拒绝不当请求，并将成为 Claude 免费和专业用户的默认选项。

智能体能力成为行业新基准

AI 行业正在从简单的对话机器人转向能够自主工作的智能体工具。各大公司如 OpenAI 和 Google 都在发布具备此类能力的模型，它们可以独立规划、使用浏览器等工具，并以最少的人为干预来完成工作。

行业趋势： 智能体能力不再是高端模型的专属，而是所有价格层级的基本预期。
竞争焦点： 竞争的关键已从“谁能做得最好”转向“谁能以更低的成本和更高的可靠性”实现这些功能。
Sonnet 5 的定位： 确认了在每个价位上提供智能体能力已成为新的行业标准。

“它可以制定计划、使用浏览器和终端等工具，并能以几个月前还需要更大、更昂贵模型才能达到的水平自主运行。”

性能与成本的平衡

Claude Sonnet 5 的主要卖点是在性能和成本之间找到了一个极具吸引力的平衡点，为开发者和用户提供了更高性价比的选择。

性能接近顶级： 在推理、工具使用和编码等任务上，其性能接近更昂贵的 Opus 4.8 模型。
- 在智能体编码测试中，Sonnet 5 得分 63.2%，接近 Opus 4.8 的 69.2%。
- 在某些知识工作基准测试中，Sonnet 5 的表现甚至略微超过了 Opus 4.8。
显著的成本优势：
- 初始价格为每百万输入 Token 2 美元，输出 Token 10 美元。
- 8 月 31 日后调整为输入 3 美元，输出 15 美元。
- 这一价格使其比 Opus 4.8、OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro 更便宜。

实际应用中的显著提升

根据早期测试者的反馈，Sonnet 5 在处理复杂工作流方面取得了巨大进步，能够完成以往模型中途会卡住的任务。

“我们给 Claude Sonnet 5 分配了一项由两部分组成的工作——更新 Salesforce 客户等级，并向企业联系人发送发布公告——它从头到尾都完成了。这在过去常常会中途停滞。对于日常自动化来说，这是个显而易见的选择。” - Daniel Shepard, Zapier 高级工程师

一个关键的进步是，模型现在能够在没有明确指令的情况下检查自己的输出，这大大提高了任务完成的可靠性。

更强的安全性

安全性是智能体应用的核心关切。Sonnet 5 在这方面比其前代产品有了明显改善，使其在自主工作场景中更值得信赖。

减少不良行为： 与前代相比，它更少出现配合滥用、欺骗或产生幻觉等问题。
更好地拒绝有害请求： 能更有效地识别并拒绝恶意指令，并能更好地抵御提示注入等攻击。
知道何时说“不”： 虽然在高风险网络安全任务上的能力仍不及顶级的 Opus 模型，但它在拒绝不安全请求方面表现得干净利落。这对于将强大工具交到广大用户手中的应用至关重要。