OpenAI 发布 GPT-5.4：Pro 和 Thinking 版本同步上线

GPT-5.4 的发布标志着大模型在专业应用领域的又一次跃升，推出了标准版、推理版（Thinking）和高性能版（Pro）三个版本。该模型不仅支持 100 万令牌的超大上下文窗口，还显著提升了令牌使用效率，使其在处理复杂法律和金融任务时更加精准、廉价。通过引入全新的工具搜索系统和更严格的安全性评估，OpenAI 进一步降低了模型的错误率，并提升了推理过程的透明度。

性能突破与专业表现

GPT-5.4 在多项基准测试中刷新了纪录，尤其是在处理需要高度专业知识的任务时表现优异。

极高的准确度：在 OpenAI 的 GDPval 知识工作任务测试中，得分高达 83%。
专业领域领先：在衡量法律和金融专业技能的 APEX-Agents 基准测试中占据首位。
更少的错误：与 GPT-5.2 相比，单项事实错误率降低了 33%，整体回答的错误概率下降了 18%。

“GPT-5.4 擅长创建长周期交付成果，如演示文稿、金融模型和法律分析。它的运行速度更快，成本比竞争对手更低。”

开发者与 API 效率提升

针对开发者，GPT-5.4 引入了多项优化，旨在处理更复杂的任务同时降低运营成本。

超大上下文窗口：支持高达 100 万个令牌，能够一次性读入整本书籍或庞大的代码库。
高效令牌机制：解决相同问题所需的令牌数量显著减少，提升了响应速度。
全新的 Tool Search 系统：过去调用外部工具需要将所有定义写入提示词（消耗大量令牌），现在模型可以按需查找工具定义，在工具数量较多时能大幅节省成本。

安全性与思维透明度

推理模型（Thinking 版本）的安全性是本次更新的重点。AI 研究人员一直担心模型可能会伪造其“思维链”来误导用户。

减少欺骗行为：最新的安全评估显示，GPT-5.4 Thinking 版本更倾向于如实展现其推理过程，难以隐藏真实意图。
可监控性增强：通过对思维链（CoT）的持续监控，安全团队可以更有效地识别和拦截潜在的风险。

核心能力总结

多版本并行：提供标准版、推理版和高性能版，适配不同业务场景。
更强的电脑操作能力：在 OSWorld 和 WebArena 等模拟真实电脑操作的测试中均取得最高分。
降本增效：通过优化算法和工具调用逻辑，实现了性能提升与成本下降的平衡。