Synth Daily

GPT-5.4 是一次大幅升级

GPT-5.4 是 OpenAI 对其旗舰模型的稳健升级,标志着其在专业协作和复杂推理领域的回归。该模型显著增强了知识处理、编码能力和多任务协作,并引入了 100 万 Token 上下文以及响应中途调整方向等关键功能。尽管使用成本略有增加,但其在处理专业文档(如电子表格、代码库)时的效率提升部分抵消了价格影响。虽然在意图推断和设计审美上仍与 Claude Opus 4.6 存在差距,但 GPT-5.4 凭借其更自然的人格化表达和强大的逻辑底座,重新确立了其在生产力工具中的顶尖地位。

核心功能与技术突破

GPT-5.4 不仅仅是参数规模的堆叠,更多在于交互逻辑和处理效率的优化。

  • 超长上下文与实时纠偏:支持 100 万 Token 的上下文窗口。最显著的改进是用户可以在模型输出过程中实时引导或改变其回答方向
  • 原生计算机使用能力:模型在 agentic(代理)工作流方面表现出色,能更精准地操作软件环境、处理复杂的 Excel 表格和 PPT 文档。
  • 编码能力的终极进化:整合了 5.3-Codex 的能力,在代码理解和执行上几乎达到了“无错”水平。
  • 深度的网页研究:改进了联网搜索的逻辑,能够更彻底地进行背景调查和事实核查。

写作风格与“人格”重塑

OpenAI 在此版本中重点解决了模型“机器人味太重”的问题,试图找回类似早期 GPT-4 的灵动感。

  • 去 AI 化表达:用户反馈其写作风格更自然,能够模仿作者的语气进行编辑,而不会强行覆盖作者的个人风格。
  • 社交感知与幽默:在多角色对话中,它表现出更强的社交敏锐度,能够识别更微妙的情绪和语境。
  • 告别说教:相比 5.2 版本,5.4 减少了关于“道德准则”的冗长说教,倾向于以更委婉或幽默的方式处理争议话题。

“这是第一个我可以对它说‘修改我的文章但不要改变我的风格’,并得到可以直接发布的成品的模型。它理解我的意图,且下手轻重得当。”

性能表现:基准测试与现实感知

虽然开发者认为传统的基准测试参考价值正在下降,但 GPT-5.4 在关键领域依然表现亮眼。

  • 数学与科学:在 FrontierMath 等极端难度测试中创造了新纪录,甚至解决了一些模型从未攻克的难题。
  • 推理速度:在保持高质量输出的同时,速度维持在约 74 tokens/s,远高于竞争对手 Opus 4.6。
  • 意图理解的争议:虽然在逻辑上近乎完美,但在“直觉推断”用户意图方面,部分用户认为它仍逊色于 Claude。它更倾向于字面执行指令,而非感性揣摩。

安全性与订阅成本

  • 防御机制:安全框架与前代相当,重点提升了“防止破坏性操作”的能力(例如在操作文件时避免误删用户数据)。
  • 价格调整:价格相较 5.2 版本有所上调。对于深度依赖 API 的企业用户,成本会有感官上的增长,但对于订阅 ChatGPT Pro 的普通用户,这种变化主要体现在配额消耗速度上。

选购与使用建议

目前的 AI 市场已进入“双雄割据”阶段,单一模型已难满足所有需求。

  • 编码与后台逻辑:优先选择 GPT-5.4。它在处理严谨的后端代码、科学计算和大型文档分析时具有压倒性优势。
  • 文案创意与前端设计Claude Opus 4.6 依然在审美、前端 UI 开发和“懂人心”方面略胜一筹。
  • 最佳实践:建议专业用户采取“双持”策略。在处理复杂、高价值的任务时,将同一个问题同时交给 GPT-5.4 和 Claude,利用两者的思维差异进行交叉验证。