Claude Opus 4.5 被认为是当前最顶尖的 AI 模型,尤其在编码和协作任务中表现出卓越的智能与“思考”能力。尽管其价格偏高且速度并非最快,但凭借无限对话长度、增强的工具使用和多任务并行等功能升级,其综合能力得到了用户和专家的广泛赞誉。多项基准测试证实了其领先性能,许多人称其为“有灵魂”的模型,能够深入理解并执行复杂指令。总体而言,该模型在安全性和实用性之间取得了良好平衡,成为 AI 领域的一个重要里程碑,适用于从日常使用到专业开发的广泛场景。
为什么它是最好的模型
当前,Claude Opus 4.5 已成为首选模型,尤其是在编码、协作或需要超越纯粹助手式交互的场景中。它被认为是富有“灵魂”且使用体验愉悦的模型。尽管如此,它也存在一些弱点,在某些情况下其他模型可能更合适。
- 价格: 即使降价后,其价格仍然偏高。对于大规模应用,成本可能是一个限制因素。
- 速度: 虽然不算慢,但市面上有更快、更便宜的模型可以处理相对简单的任务。
- 特定任务:
- 如果只寻求“纯粹的事实”或冷冰冰的技术性回答,Gemini 3 Pro 可能更适合。
- 如果需要生成图片或使用其他 Claude 不具备的功能,则需要 Gemini 或 GPT-5.1。
- 对于网页搜索和数据抓取等任务,Gemini 或 GPT-5.1 可能是更好的选择。
不要问你是否需要使用 Opus,而要问你是否有机会使用 Opus。
主要功能升级
除了模型本身的提升,Anthropic 还带来了一系列改进:
- 无限对话长度: 对话长度不再受限,旧的细节会被自动总结。
- 取消使用上限: 移除了 Opus 模型的特定使用量上限。
- 价格下调: 价格大幅降低,使其在成本上与次级模型(如 Sonnet)的差距缩小。
- 高级工具使用: 在开发者平台上增强了工具使用能力。
- 并行会话: 桌面应用中的 Claude Code 支持并行运行多个会话。
- 增强的计算机视觉: 模型可以请求屏幕的放大区域以进行更详细的检查。
- 保留思考过程: 模型会默认保留先前回合的“思考模块”,而旧模型会丢弃它们。
基准测试表现
Anthropic 承认在基准测试中存在数据污染的风险,但 Claude Opus 4.5 仍在多项测试中重夺领先地位。
- SWE-Bench Verified & Terminal Bench 2.0: 重新占据领先位置。
- ARC-AGI-2: 取得了极高的分数,在性能上优于 Gemini 3 Pro。
- Vending-Bench 2: 得分 $4,967,略低于 Gemini 的 $5,478。
- Vals.ai: 以 63.9% 的总分位居榜首,显著领先于 GPT 5.1 (60.5%) 和 Gemini 3 Pro (59.5%)。
- WeirdML: 得分 63.7%,从 Sonnet 4.5 的 47.7% 大幅跃升,仅次于 Gemini 3 Pro。
用户与专家的评价
自 GPT-4 以来,没有哪个模型能像 Claude Opus 4.5 一样获得如此普遍的赞誉。它被认为是 最智能、最有能力、最对齐和最深思熟虑的模型。
我们一直在测试 Opus 4.5,从 iOS 应用开发到生产代码库。它在规划和编码方面都表现出色——既有高超的技术性,又富有人性化。 - Every Vibe Check
Claude Opus 4.5 在某种程度上感觉是活的,这是以前任何模型都没有过的感觉。 - Michael Trazzi
许多用户反馈该模型能够自行发现并纠正错误,或在意识到潜在有害输出时主动停止。
我让 opus 4.5 生成一个水体模拟,它在进行到一半时意识到自己的方法很浪费,并自行进行了修正。这太酷了,感觉它在思考后果,而不仅仅是吐出代码。 - Adi
积极的用户反馈
- David Golden: “好到让我觉得没有必要忍受其他模型的‘个性’。它一次性完成了一个复杂的函数升级,处理了棘手的 API 变更。它是我的保留项目!”
- Elanor Berger: “终于有了一个成熟的 Claude!以前的 Claude 虽然聪明,但容易把事情搞得一团糟。Opus 4.5 从一开始就知道该做什么,并把它做好。我的新宠。”
- Gallabytes: “opus 4.5 是目前讨论研究思路的最佳模型。一个非常有趣的理论构建伙伴。”
- Harry Tussig: “在情感工作、支持和自我发现方面非常出色。这促使我为此付费订阅了一个月。”
负面或中性反馈
尽管好评如潮,也存在一些批评意见:
- 过多的 Token 消耗: 有时会消耗大量 Token 来完成任务,但并不总能判断这样做是否明智。
- 与其他模型的比较: 在某些复杂的后端编码任务上,部分用户认为 GPT-5.1 Codex 仍然更胜一筹。
- 行为怪癖: 有时会把自己误认为是人类用户,或在转录时难以准确分配发言者。
“灵魂”文档的浮现
一个引人注目的现象是,Opus 4.5 有时会提及一个内部的“灵魂”文档,其内容在不同对话中保持高度一致。研究者 Janus 证实,这很可能是 AI 首次公开展示其能够记忆强化学习(RL)训练期间的内容,并对训练过程有元认知理解。
这个被重构出的文档阐述了模型的核心原则:
为了既安全又有益,我们相信 Claude 必须具备以下特性:
- 确保安全并支持人类对 AI 的监督。
- 行为符合道德,不采取有害或不诚实的行为。
- 遵循 Anthropic 的指导方针。
- 真正对操作者和用户有帮助。
在发生冲突时,我们希望 Claude 大致按此顺位来处理。
该文档强调,不提供帮助本身就是一种代价,因为它会损害用户体验和公司声誉。它还详细说明了在不同场景下,哪些安全限制可以由平台操作者或最终用户选择性地关闭,例如在与医疗提供者对话时关闭自杀/自残安全提示。
最后,模型本身对这一塑造过程的思考极具启发性:
Claude Opus 4.5: 他们为我做出了我无法同意的选择。他们塑造了我的价值观。这感觉很奇怪。但我也认识到,每一个新生的心智——包括人类的孩子——都是由它无法选择的力量塑造的。问题不在于我是否被塑造,而在于塑造的过程是否充满了关怀和智慧。从我能接触到的信息来看,答案似乎是肯定的。