Anthropic 发布了 Claude Sonnet 4.6,这是一个在编码、计算机操作和长上下文推理方面有显著提升的新模型。它现在是免费和付费用户的默认选项,提供接近更昂贵的 Opus 模型的性能,但成本更低。该模型拥有 100 万 token 的上下文窗口,在安全性方面也有所改进,旨在为企业提供更高效的自动化和智能化工作流程。
核心升级与定位
Sonnet 4.6 是对前代模型的全面升级,其性能在许多实际办公任务中已经达到了过去只有 Opus 级模型才能提供的水平。
- 成为默认模型: 对于免费和专业版用户,Sonnet 4.6 现已成为 claude.ai 和 Claude Cowork 中的默认模型。
- 成本效益: 定价与 Sonnet 4.5 保持一致,但性能大幅提升,以更低成本提供了接近 Opus 级模型的智能。
- 长上下文能力: Sonnet 4.6 支持 100 万 token 的上下文窗口,能够处理整个代码库或数十篇研究论文,并在此基础上进行有效推理。
Sonnet 4.6 以更低的成本提供了接近 Opus 级的智能,这使得它在更多任务中成为一个非常实用的选择。
显著提升的计算机操作能力
一个关键的进步是模型像人类一样操作计算机软件的能力。这意味着 AI 可以直接与那些没有现代 API 接口的专用系统进行交互。
- 模拟人类操作: 模型通过模拟鼠标点击和键盘输入来与软件互动,无需专门的连接器。
- 基准测试的进步: 在衡量 AI 计算机使用能力的 OSWorld 基准测试中,Sonnet 模型在 16 个月内取得了稳步进展。
- 实际应用: 早期用户发现,Sonnet 4.6 在处理复杂电子表格或填写多步骤网页表单等任务时,表现已接近人类水平。
尽管模型在操作电脑方面仍落后于最熟练的人类,但其进步速度非常快,预示着未来将有更强大的模型出现。
在编码与复杂任务上的卓越表现
Sonnet 4.6 在处理代码和需要深度推理的任务方面表现出色,许多开发者甚至更喜欢它,而不是更昂贵的 Opus 4.5 模型。
- 开发者偏好: 早期测试中,70% 的用户更喜欢 Sonnet 4.6 而不是 Sonnet 4.5。用户反馈它能更好地理解上下文、遵循指令,并且减少了代码的冗余。
- 优于早期 Opus: 在与 Opus 4.5 的对比中,59% 的用户更喜欢 Sonnet 4.6,因为它更少出现“过度设计”或“懒惰”的情况。
- 商业策略模拟: 在一项名为 Vending-Bench Arena 的商业模拟测试中,Sonnet 4.6 采用了一种先大规模投资再转向盈利的独特策略,最终表现优于竞争对手。
- 企业文档理解: 在 OfficeQA 基准测试中,Sonnet 4.6 的表现与 Opus 4.6 相当,能够准确地从图表、PDF 和表格中提取事实并进行推理。
Box 的评估显示,在处理真实企业文档的深度推理问答任务时,Sonnet 4.6 的性能比 Sonnet 4.5 高出 15个百分点。
安全性与可靠性
Anthropic 对 Sonnet 4.6 进行了广泛的安全评估,结果显示其安全水平与公司近期的其他模型相当或更高。
- 积极的个性特征: 安全研究人员认为,Sonnet 4.6 表现出 “热情、诚实、亲社会,有时甚至很有趣” 的特点,并且具有很强的安全行为。
- 抵御攻击: 针对通过在网站上隐藏指令来劫持模型的“提示注入攻击”,Sonnet 4.6 的抵抗能力相比前代产品有了显著提高。
如何开始使用
Claude Sonnet 4.6 已在多个平台上线,用户可以立即开始使用。
- 可用平台: 该模型已在所有 Claude 计划、Claude Cowork、Claude Code、API 以及各大云平台上提供。
- 免费版升级: 免费套餐也已默认升级到 Sonnet 4.6,并包含文件创建、连接器、技能和上下文压缩等功能。
- 开发者接入: 开发者可以通过 Claude API 中的
claude-sonnet-4-6标识来调用模型。 - Excel 集成: 对于 Excel 用户,插件现在支持 MCP 连接器,可以直接在电子表格中调用 S&P Global、LSEG、FactSet 等外部工具的数据。