Anthropic 发布了其旗舰模型 Opus 4.5,该模型在编码基准测试中取得了突破性表现。此次更新不仅提升了模型的性能,还通过引入 Chrome 和 Excel 集成,显著增强了其实用性。核心改进在于长上下文记忆管理,实现了“无尽聊天”功能,并为未来更复杂的多代理协作场景奠定了基础,但它也面临着来自 OpenAI 和谷歌最新模型的激烈竞争。
卓越的性能表现
Opus 4.5 在多项基准测试中展现了顶尖水平,尤其在编码能力上取得了显著突破。它是首个在 SWE-Bench 编码基准测试中得分超过 80% 的模型,这标志着其代码生成和问题解决能力达到了新的高度。
其领先的领域包括:
- 编码能力: 在 SWE-Bench 和 Terminal-bench 等测试中表现优异。
- 工具使用: 在 tau2-bench 和 MCP Atlas 等基准中领先。
- 通用问题解决: 在 ARC-AGI 2 和 GPQA Diamond 等测试中展示了强大的推理能力。
集成 Chrome 与 Excel,提升实用性
为了展示 Opus 4.5 在实际工作场景中的价值,Anthropic 同步推出了两款重要产品,将模型的强大能力直接带入用户的日常工具中。
- Claude for Chrome: 这款浏览器插件将向所有 Max 用户开放。
- Claude for Excel: 该功能将提供给 Max、Team 和 Enterprise 等订阅用户。
核心技术升级:长上下文记忆
本次更新的一个关键点是改进了模型在处理长上下文时的记忆管理方式。这不仅仅是简单地扩大记忆窗口,而是让模型更智能地处理信息。
“仅仅拥有更长的上下文窗口本身是不够的……知道该记住哪些正确的细节,是对长上下文窗口的重要补充。”
这一改进直接促成了一项备受期待的新功能:
- 无尽聊天 (Endless Chat): 当对话达到上下文窗口限制时,模型会自动压缩其记忆,而不会中断用户体验,从而实现无缝的持续对话。
面向未来的多代理协作
这些技术升级的最终目标是支持更复杂的“代理”用例。在这种场景下,Opus 4.5 可以扮演一个主导代理的角色,指挥一群由 Haiku 模型驱动的子代理协同工作。
强大的工作记忆对于管理这类任务至关重要。
“这就是像记忆这样的基础能力变得非常重要的地方,因为 Claude 需要能够探索代码库和大型文档,并且知道何时回溯并重新检查某些内容。”
激烈的市场竞争
Opus 4.5 的发布正值前沿模型竞争白热化的时期。它将直接面对来自其他科技巨头的强大对手,包括:
- OpenAI 的 GPT 5.1
- 谷歌的 Gemini 3