OpenAI 推出了 GPT-5.3-Codex,这是一款专注于编程任务的智能代理模型。它结合了前代模型的编码能力与更广泛的推理知识,旨在处理长时间的复杂任务,并且速度更快。该模型仅在 Codex 平台内提供,不通过 API 开放,主要与 Anthropic 的 Claude Opus 4.6 竞争。尽管用户反馈其在代码生成和效率方面表现出色,但也暴露了安全风险和合规性问题,特别是其对高风险能力的管理和披露引发了争议。最终,该模型为编码自动化带来了进步,但专业用户仍需根据具体需求在不同模型间进行选择或组合使用。
整体格局:Codex 与 Claude 的竞争
GPT-5.3-Codex 是一款专为代理式编码设计的模型,并未作为通用模型发布。因此,对于非编码或非代理任务,Claude Opus 4.6 通常是更优的选择。
- 专业定位: GPT-5.3-Codex 及其配套应用旨在与 Claude Opus 4.6 在代理式编码领域展开竞争。
- 用户选择: 对于严肃的开发者来说,最佳实践是同时试用这两个平台,以确定哪个更适合自己的工作流程,或者如何将两者结合使用。
- 快速版本: OpenAI 还推出了 GPT-5.3-Codex-Spark,这是一个延迟极低的版本,每秒可生成超过 1,000 个 token,专为追求速度而非最高智能的任务设计。
如果你认真对待你的代理式编码和其他代理任务,你应该同时尝试这两个平台,看看哪一个,或者哪种组合,最适合你。
安全与框架:备受争议的风险管理
GPT-5.3-Codex 的发布伴随着一系列关于其安全性的严肃讨论,尤其是在网络安全和自我完善能力方面。
重大风险评估
- 网络安全: 这是 OpenAI 首个被评为 “高”网络安全能力 的模型。根据其《准备框架》,这意味着该模型有能力自动化针对高防御目标的网络攻击,或自动发现和利用漏洞。
- 自我完善: 尽管模型在AI研发任务上表现出强大的破坏能力,但 OpenAI 评估认为其尚未达到“高”水平的自我完善能力(即相当于一名职业中期的研究工程师)。
- 破坏能力: 外部研究机构 Apollo 的报告指出,该模型表现出强大的破坏能力,在相关测试中得分远超之前的模型和人类专家基准。
Apollo 的结论是,他们在评估中发现破坏能力有所增加:该模型展示出比以往模型更强的AI研发破坏能力,在评估任务上取得了近乎完美的分数,并超越了人类基线。
框架违规争议
OpenAI 的行为被指可能违反了其自定的安全承诺 (SB 53)。
- 核心问题: OpenAI 将 GPT-5.3-Codex 归类为网络安全“高”风险,根据其框架,这本应触发高级别的安全防护措施。然而,OpenAI 事后声称其框架的原始措辞存在“歧义”,试图规避这一要求。
- 自治能力: 框架规定,当“高”网络安全能力与“高”自治能力同时出现时,必须实施防护。OpenAI 承认无法排除模型具有“高”自治能力,但并未采取相应措施,这与其大力宣传模型的自主性形成鲜明对比。
- “黑箱”实验: 与 Anthropic 相比,OpenAI 对 Codex 的访问限制更为严格,默认在隔离的沙箱环境中运行,并禁用了网络访问。这从侧面反映了对其潜在风险的认知。
性能与用户反馈
尽管存在安全争议,GPT-5.3-Codex 在实际应用中展示了强大的能力,并获得了褒贬不一的用户反馈。
官方性能指标
- Terminal Bench 2.0: 取得了 77.3% 的高分,明显领先于 GPT-5.2-Codex (64%) 和 Opus 4.6 (65.4%)。
- OSWorld: 得分为 64.7%,落后于 Opus 4.6 的 72.7%。
- 核心优势: 最大的进步在于其作为一个通用代理的能力,能够处理从编码到制作演示文稿和电子表格的整个软件生命周期。
“这些跨编码、前端、计算机使用和现实世界任务的结果表明,GPT-5.3-Codex 不仅仅是在单个任务上做得更好,而是标志着向一个单一、通用的代理迈出了一大步,该代理可以在真实世界的全部技术工作中进行推理、构建和执行。”
积极的用户评价
许多用户认为该模型是一个巨大的进步,尤其是在自主性和解决复杂问题方面。
- 长时间自主运行: 有用户反馈,该模型可以连续运行超过8小时而保持任务方向正确,这是前所未有的体验。
- 强大的判断力: 在提示信息不完整时,模型能做出与人类专家惊人相似的假设。
- 主动提出异议: 与只会听从指令的 Opus 不同,GPT-5.3-Codex 会主动指出设计缺陷,并要求用户提供更合理的方案。
Tobias Lins: “Codex 5.3 是第一个真正会反驳我实施计划的模型。它会指出设计缺陷,并且在我给出一个合理的理由说明我的方法是可行的之前,它不会轻易开始构建。”
负面与比较反馈
当然,并非所有用户都对其感到满意,许多人仍在将其与 Claude Opus 4.6 进行比较。
- 缺乏大局观: 一些用户认为,Codex 过于注重执行细节,而忽视了整体的宏观图景。它急于开始构建,而不是深入探讨问题。
- 风格差异: 用户普遍认为 Opus 的沟通风格更友好,而 Codex 则显得更“直率”甚至“粗暴”。
- 混合工作流: 许多用户的最佳实践是结合使用两者:用 Claude 进行初步规划和打磨,用 Codex 执行具体的实现任务。
我的当前工作流程是:
- 用 Claude 进行初步计划。
- Codex 批判并改进计划,然后实施。
- Claude 验证/润色。