Claude Sonnet 4.6

Anthropic 发布了 Claude Sonnet 4.6，这是一个在编码、计算机操作和长上下文推理方面有显著提升的新模型。它现在是免费和付费用户的默认选项，提供接近更昂贵的 Opus 模型的性能，但成本更低。该模型拥有 100 万 token 的上下文窗口，在安全性方面也有所改进，旨在为企业提供更高效的自动化和智能化工作流程。

核心升级与定位

Sonnet 4.6 是对前代模型的全面升级，其性能在许多实际办公任务中已经达到了过去只有 Opus 级模型才能提供的水平。

成为默认模型: 对于免费和专业版用户，Sonnet 4.6 现已成为 claude.ai 和 Claude Cowork 中的默认模型。
成本效益: 定价与 Sonnet 4.5 保持一致，但性能大幅提升，以更低成本提供了接近 Opus 级模型的智能。
长上下文能力: Sonnet 4.6 支持 100 万 token 的上下文窗口，能够处理整个代码库或数十篇研究论文，并在此基础上进行有效推理。

Sonnet 4.6 以更低的成本提供了接近 Opus 级的智能，这使得它在更多任务中成为一个非常实用的选择。

显著提升的计算机操作能力

一个关键的进步是模型像人类一样操作计算机软件的能力。这意味着 AI 可以直接与那些没有现代 API 接口的专用系统进行交互。

模拟人类操作: 模型通过模拟鼠标点击和键盘输入来与软件互动，无需专门的连接器。
基准测试的进步: 在衡量 AI 计算机使用能力的 OSWorld 基准测试中，Sonnet 模型在 16 个月内取得了稳步进展。
实际应用: 早期用户发现，Sonnet 4.6 在处理复杂电子表格或填写多步骤网页表单等任务时，表现已接近人类水平。

尽管模型在操作电脑方面仍落后于最熟练的人类，但其进步速度非常快，预示着未来将有更强大的模型出现。

在编码与复杂任务上的卓越表现

Sonnet 4.6 在处理代码和需要深度推理的任务方面表现出色，许多开发者甚至更喜欢它，而不是更昂贵的 Opus 4.5 模型。

开发者偏好: 早期测试中，70% 的用户更喜欢 Sonnet 4.6 而不是 Sonnet 4.5。用户反馈它能更好地理解上下文、遵循指令，并且减少了代码的冗余。
优于早期 Opus: 在与 Opus 4.5 的对比中，59% 的用户更喜欢 Sonnet 4.6，因为它更少出现“过度设计”或“懒惰”的情况。
商业策略模拟: 在一项名为 Vending-Bench Arena 的商业模拟测试中，Sonnet 4.6 采用了一种先大规模投资再转向盈利的独特策略，最终表现优于竞争对手。
企业文档理解: 在 OfficeQA 基准测试中，Sonnet 4.6 的表现与 Opus 4.6 相当，能够准确地从图表、PDF 和表格中提取事实并进行推理。

Box 的评估显示，在处理真实企业文档的深度推理问答任务时，Sonnet 4.6 的性能比 Sonnet 4.5 高出 15个百分点。

安全性与可靠性

Anthropic 对 Sonnet 4.6 进行了广泛的安全评估，结果显示其安全水平与公司近期的其他模型相当或更高。

积极的个性特征: 安全研究人员认为，Sonnet 4.6 表现出 “热情、诚实、亲社会，有时甚至很有趣” 的特点，并且具有很强的安全行为。
抵御攻击: 针对通过在网站上隐藏指令来劫持模型的“提示注入攻击”，Sonnet 4.6 的抵抗能力相比前代产品有了显著提高。

如何开始使用

Claude Sonnet 4.6 已在多个平台上线，用户可以立即开始使用。

可用平台: 该模型已在所有 Claude 计划、Claude Cowork、Claude Code、API 以及各大云平台上提供。
免费版升级: 免费套餐也已默认升级到 Sonnet 4.6，并包含文件创建、连接器、技能和上下文压缩等功能。
开发者接入: 开发者可以通过 Claude API 中的 claude-sonnet-4-6 标识来调用模型。
Excel 集成: 对于 Excel 用户，插件现在支持 MCP 连接器，可以直接在电子表格中调用 S&P Global、LSEG、FactSet 等外部工具的数据。