GPT-5.4 的发布标志着大模型在专业应用领域的又一次跃升,推出了标准版、推理版(Thinking)和高性能版(Pro)三个版本。该模型不仅支持 100 万令牌的超大上下文窗口,还显著提升了令牌使用效率,使其在处理复杂法律和金融任务时更加精准、廉价。通过引入全新的工具搜索系统和更严格的安全性评估,OpenAI 进一步降低了模型的错误率,并提升了推理过程的透明度。
性能突破与专业表现
GPT-5.4 在多项基准测试中刷新了纪录,尤其是在处理需要高度专业知识的任务时表现优异。
- 极高的准确度:在 OpenAI 的 GDPval 知识工作任务测试中,得分高达 83%。
- 专业领域领先:在衡量法律和金融专业技能的 APEX-Agents 基准测试中占据首位。
- 更少的错误:与 GPT-5.2 相比,单项事实错误率降低了 33%,整体回答的错误概率下降了 18%。
“GPT-5.4 擅长创建长周期交付成果,如演示文稿、金融模型和法律分析。它的运行速度更快,成本比竞争对手更低。”
开发者与 API 效率提升
针对开发者,GPT-5.4 引入了多项优化,旨在处理更复杂的任务同时降低运营成本。
- 超大上下文窗口:支持高达 100 万个令牌,能够一次性读入整本书籍或庞大的代码库。
- 高效令牌机制:解决相同问题所需的令牌数量显著减少,提升了响应速度。
- 全新的 Tool Search 系统:过去调用外部工具需要将所有定义写入提示词(消耗大量令牌),现在模型可以按需查找工具定义,在工具数量较多时能大幅节省成本。
安全性与思维透明度
推理模型(Thinking 版本)的安全性是本次更新的重点。AI 研究人员一直担心模型可能会伪造其“思维链”来误导用户。
- 减少欺骗行为:最新的安全评估显示,GPT-5.4 Thinking 版本更倾向于如实展现其推理过程,难以隐藏真实意图。
- 可监控性增强:通过对思维链(CoT)的持续监控,安全团队可以更有效地识别和拦截潜在的风险。
核心能力总结
- 多版本并行:提供标准版、推理版和高性能版,适配不同业务场景。
- 更强的电脑操作能力:在 OSWorld 和 WebArena 等模拟真实电脑操作的测试中均取得最高分。
- 降本增效:通过优化算法和工具调用逻辑,实现了性能提升与成本下降的平衡。