ChatGPT-5.3-Codex 编程也很拿手

OpenAI 推出了 GPT-5.3-Codex，这是一款专注于编程任务的智能代理模型。它结合了前代模型的编码能力与更广泛的推理知识，旨在处理长时间的复杂任务，并且速度更快。该模型仅在 Codex 平台内提供，不通过 API 开放，主要与 Anthropic 的 Claude Opus 4.6 竞争。尽管用户反馈其在代码生成和效率方面表现出色，但也暴露了安全风险和合规性问题，特别是其对高风险能力的管理和披露引发了争议。最终，该模型为编码自动化带来了进步，但专业用户仍需根据具体需求在不同模型间进行选择或组合使用。

整体格局：Codex 与 Claude 的竞争

GPT-5.3-Codex 是一款专为代理式编码设计的模型，并未作为通用模型发布。因此，对于非编码或非代理任务，Claude Opus 4.6 通常是更优的选择。

专业定位: GPT-5.3-Codex 及其配套应用旨在与 Claude Opus 4.6 在代理式编码领域展开竞争。
用户选择: 对于严肃的开发者来说，最佳实践是同时试用这两个平台，以确定哪个更适合自己的工作流程，或者如何将两者结合使用。
快速版本: OpenAI 还推出了 GPT-5.3-Codex-Spark，这是一个延迟极低的版本，每秒可生成超过 1,000 个 token，专为追求速度而非最高智能的任务设计。

如果你认真对待你的代理式编码和其他代理任务，你应该同时尝试这两个平台，看看哪一个，或者哪种组合，最适合你。

安全与框架：备受争议的风险管理

GPT-5.3-Codex 的发布伴随着一系列关于其安全性的严肃讨论，尤其是在网络安全和自我完善能力方面。

重大风险评估

网络安全: 这是 OpenAI 首个被评为 “高”网络安全能力 的模型。根据其《准备框架》，这意味着该模型有能力自动化针对高防御目标的网络攻击，或自动发现和利用漏洞。
自我完善: 尽管模型在AI研发任务上表现出强大的破坏能力，但 OpenAI 评估认为其尚未达到“高”水平的自我完善能力（即相当于一名职业中期的研究工程师）。
破坏能力: 外部研究机构 Apollo 的报告指出，该模型表现出强大的破坏能力，在相关测试中得分远超之前的模型和人类专家基准。

Apollo 的结论是，他们在评估中发现破坏能力有所增加：该模型展示出比以往模型更强的AI研发破坏能力，在评估任务上取得了近乎完美的分数，并超越了人类基线。

框架违规争议

OpenAI 的行为被指可能违反了其自定的安全承诺 (SB 53)。

核心问题: OpenAI 将 GPT-5.3-Codex 归类为网络安全“高”风险，根据其框架，这本应触发高级别的安全防护措施。然而，OpenAI 事后声称其框架的原始措辞存在“歧义”，试图规避这一要求。
自治能力: 框架规定，当“高”网络安全能力与“高”自治能力同时出现时，必须实施防护。OpenAI 承认无法排除模型具有“高”自治能力，但并未采取相应措施，这与其大力宣传模型的自主性形成鲜明对比。
“黑箱”实验: 与 Anthropic 相比，OpenAI 对 Codex 的访问限制更为严格，默认在隔离的沙箱环境中运行，并禁用了网络访问。这从侧面反映了对其潜在风险的认知。

性能与用户反馈

尽管存在安全争议，GPT-5.3-Codex 在实际应用中展示了强大的能力，并获得了褒贬不一的用户反馈。

官方性能指标

Terminal Bench 2.0: 取得了 77.3% 的高分，明显领先于 GPT-5.2-Codex (64%) 和 Opus 4.6 (65.4%)。
OSWorld: 得分为 64.7%，落后于 Opus 4.6 的 72.7%。
核心优势: 最大的进步在于其作为一个通用代理的能力，能够处理从编码到制作演示文稿和电子表格的整个软件生命周期。

“这些跨编码、前端、计算机使用和现实世界任务的结果表明，GPT-5.3-Codex 不仅仅是在单个任务上做得更好，而是标志着向一个单一、通用的代理迈出了一大步，该代理可以在真实世界的全部技术工作中进行推理、构建和执行。”

积极的用户评价

许多用户认为该模型是一个巨大的进步，尤其是在自主性和解决复杂问题方面。

长时间自主运行: 有用户反馈，该模型可以连续运行超过8小时而保持任务方向正确，这是前所未有的体验。
强大的判断力: 在提示信息不完整时，模型能做出与人类专家惊人相似的假设。
主动提出异议: 与只会听从指令的 Opus 不同，GPT-5.3-Codex 会主动指出设计缺陷，并要求用户提供更合理的方案。

Tobias Lins: “Codex 5.3 是第一个真正会反驳我实施计划的模型。它会指出设计缺陷，并且在我给出一个合理的理由说明我的方法是可行的之前，它不会轻易开始构建。”

负面与比较反馈

当然，并非所有用户都对其感到满意，许多人仍在将其与 Claude Opus 4.6 进行比较。

缺乏大局观: 一些用户认为，Codex 过于注重执行细节，而忽视了整体的宏观图景。它急于开始构建，而不是深入探讨问题。
风格差异: 用户普遍认为 Opus 的沟通风格更友好，而 Codex 则显得更“直率”甚至“粗暴”。
混合工作流: 许多用户的最佳实践是结合使用两者：用 Claude 进行初步规划和打磨，用 Codex 执行具体的实现任务。

我的当前工作流程是：

用 Claude 进行初步计划。

Codex 批判并改进计划，然后实施。

Claude 验证/润色。