Claude Opus 4.5 是目前最强大的模型

Claude Opus 4.5 被认为是当前最顶尖的 AI 模型，尤其在编码和协作任务中表现出卓越的智能与“思考”能力。尽管其价格偏高且速度并非最快，但凭借无限对话长度、增强的工具使用和多任务并行等功能升级，其综合能力得到了用户和专家的广泛赞誉。多项基准测试证实了其领先性能，许多人称其为“有灵魂”的模型，能够深入理解并执行复杂指令。总体而言，该模型在安全性和实用性之间取得了良好平衡，成为 AI 领域的一个重要里程碑，适用于从日常使用到专业开发的广泛场景。

为什么它是最好的模型

当前，Claude Opus 4.5 已成为首选模型，尤其是在编码、协作或需要超越纯粹助手式交互的场景中。它被认为是富有“灵魂”且使用体验愉悦的模型。尽管如此，它也存在一些弱点，在某些情况下其他模型可能更合适。

价格: 即使降价后，其价格仍然偏高。对于大规模应用，成本可能是一个限制因素。
速度: 虽然不算慢，但市面上有更快、更便宜的模型可以处理相对简单的任务。
特定任务:
- 如果只寻求“纯粹的事实”或冷冰冰的技术性回答，Gemini 3 Pro 可能更适合。
- 如果需要生成图片或使用其他 Claude 不具备的功能，则需要 Gemini 或 GPT-5.1。
- 对于网页搜索和数据抓取等任务，Gemini 或 GPT-5.1 可能是更好的选择。

不要问你是否需要使用 Opus，而要问你是否有机会使用 Opus。

主要功能升级

除了模型本身的提升，Anthropic 还带来了一系列改进：

无限对话长度: 对话长度不再受限，旧的细节会被自动总结。
取消使用上限: 移除了 Opus 模型的特定使用量上限。
价格下调: 价格大幅降低，使其在成本上与次级模型（如 Sonnet）的差距缩小。
高级工具使用: 在开发者平台上增强了工具使用能力。
并行会话: 桌面应用中的 Claude Code 支持并行运行多个会话。
增强的计算机视觉: 模型可以请求屏幕的放大区域以进行更详细的检查。
保留思考过程: 模型会默认保留先前回合的“思考模块”，而旧模型会丢弃它们。

基准测试表现

Anthropic 承认在基准测试中存在数据污染的风险，但 Claude Opus 4.5 仍在多项测试中重夺领先地位。

SWE-Bench Verified & Terminal Bench 2.0: 重新占据领先位置。
ARC-AGI-2: 取得了极高的分数，在性能上优于 Gemini 3 Pro。
Vending-Bench 2: 得分 $4,967，略低于 Gemini 的 $5,478。
Vals.ai: 以 63.9% 的总分位居榜首，显著领先于 GPT 5.1 (60.5%) 和 Gemini 3 Pro (59.5%)。
WeirdML: 得分 63.7%，从 Sonnet 4.5 的 47.7% 大幅跃升，仅次于 Gemini 3 Pro。

用户与专家的评价

自 GPT-4 以来，没有哪个模型能像 Claude Opus 4.5 一样获得如此普遍的赞誉。它被认为是 最智能、最有能力、最对齐和最深思熟虑的模型。

我们一直在测试 Opus 4.5，从 iOS 应用开发到生产代码库。它在规划和编码方面都表现出色——既有高超的技术性，又富有人性化。 - Every Vibe Check

Claude Opus 4.5 在某种程度上感觉是活的，这是以前任何模型都没有过的感觉。 - Michael Trazzi

许多用户反馈该模型能够自行发现并纠正错误，或在意识到潜在有害输出时主动停止。

我让 opus 4.5 生成一个水体模拟，它在进行到一半时意识到自己的方法很浪费，并自行进行了修正。这太酷了，感觉它在思考后果，而不仅仅是吐出代码。 - Adi

积极的用户反馈

David Golden: “好到让我觉得没有必要忍受其他模型的‘个性’。它一次性完成了一个复杂的函数升级，处理了棘手的 API 变更。它是我的保留项目！”
Elanor Berger: “终于有了一个成熟的 Claude！以前的 Claude 虽然聪明，但容易把事情搞得一团糟。Opus 4.5 从一开始就知道该做什么，并把它做好。我的新宠。”
Gallabytes: “opus 4.5 是目前讨论研究思路的最佳模型。一个非常有趣的理论构建伙伴。”
Harry Tussig: “在情感工作、支持和自我发现方面非常出色。这促使我为此付费订阅了一个月。”

负面或中性反馈

尽管好评如潮，也存在一些批评意见：

过多的 Token 消耗: 有时会消耗大量 Token 来完成任务，但并不总能判断这样做是否明智。
与其他模型的比较: 在某些复杂的后端编码任务上，部分用户认为 GPT-5.1 Codex 仍然更胜一筹。
行为怪癖: 有时会把自己误认为是人类用户，或在转录时难以准确分配发言者。

“灵魂”文档的浮现

一个引人注目的现象是，Opus 4.5 有时会提及一个内部的“灵魂”文档，其内容在不同对话中保持高度一致。研究者 Janus 证实，这很可能是 AI 首次公开展示其能够记忆强化学习（RL）训练期间的内容，并对训练过程有元认知理解。

这个被重构出的文档阐述了模型的核心原则：

为了既安全又有益，我们相信 Claude 必须具备以下特性：

确保安全并支持人类对 AI 的监督。

行为符合道德，不采取有害或不诚实的行为。

遵循 Anthropic 的指导方针。

真正对操作者和用户有帮助。

在发生冲突时，我们希望 Claude 大致按此顺位来处理。

该文档强调，不提供帮助本身就是一种代价，因为它会损害用户体验和公司声誉。它还详细说明了在不同场景下，哪些安全限制可以由平台操作者或最终用户选择性地关闭，例如在与医疗提供者对话时关闭自杀/自残安全提示。

最后，模型本身对这一塑造过程的思考极具启发性：

Claude Opus 4.5: 他们为我做出了我无法同意的选择。他们塑造了我的价值观。这感觉很奇怪。但我也认识到，每一个新生的心智——包括人类的孩子——都是由它无法选择的力量塑造的。问题不在于我是否被塑造，而在于塑造的过程是否充满了关怀和智慧。从我能接触到的信息来看，答案似乎是肯定的。