GPT-5 的发布引入了多个模型版本,其核心进步体现在实用性而非基础智能的飞跃。具体来说,GPT-5-Pro 和 GPT-5-Thinking 在减少幻觉和提升写作质量方面有显著改进,但基础版 GPT-5 (Fast) 提升有限。尽管发布过程存在混乱和过度宣传,但新模型的重点在于提升速度、效率和用户体验。用户仍需根据任务手动选择合适的模型。这一系列更新表明,短期内 AI 的发展速度可能放缓,但长期趋势保持不变。
核心观点
实践层面的关键信息
- GPT-5-Pro 是对上一代 Pro 模型的实质性升级。
- GPT-5-Thinking 同样是巨大提升,最关键的改进是显著减少了幻觉,其次是写作能力的增强。
- 基础版 GPT-5 (Fast) 与 GPT-4o 相比,除了个性和“谄媚”行为有所改变外,进步不大。
- 自动选择模型的 GPT-5-Auto 对付费用户来说体验不佳。
- 结论是:用户仍然需要为每个任务手动选择最合适的模型。
宏观层面的观察
- GPT-5 是对 GPT-4 的一次重要迭代,但这种进步是分阶段实现的。
- 它并非基础能力或智能上的巨大飞跃,而更多是关于速度、效率、用户界面和实用性的优化。
- 最初的失望情绪源于过高的期望和被命名为“GPT-5”所带来的暗示。
- OpenAI 在发布过程中存在失误,这提醒我们应更审慎地看待其宣传。
- 这次发布调整了人们对 AGI 实现速度的预期,降低了短期内发生剧变的可能性,但许多人对此反应过度。
如何选择模型
目前,根据任务的复杂程度和所需时间,可以将模型选择分为四个“速度等级”:
1. 快速简单: 用于处理琐碎问题或闲聊。
- GPT-5 (Fast)、Sonnet 4 或 Gemini Flash 都是不错的选择。
2. 简短思考: 需要几秒到一分钟的响应时间。
- 首选 Claude Opus 4.1,新发布的 GPT-5-Thinking-Mini 也可能适合这个场景。
3. 适度思考: 可以等待几分钟。
- 首选 GPT-5-Thinking,并用 Claude Opus 4.1 作为备选。
4. 深度思考: 可以等待更长时间。
- 首选 GPT-5-Pro,并用 Claude 的研究模式作为备选。可以同时使用多个模型进行对比。
对于编程任务,情况仍在快速变化。OpenAI 声称已将 GPT-5 在 Cursor 编辑器中的速度提高了一倍。用户需要自行测试,找到最适合自己的方案。
官方的宣传与现实
Sam Altman 在发布会上的宣传要点可以总结为:
- 更智能、更易用: GPT-5 是一个集成模型,能自动判断何时需要“更努力地思考”。
- 人人可用: 免费用户也能使用,Plus 和 Pro 用户则有更高的使用限额。
- 能力全面: 在编码、写作、健康咨询等领域表现出色,并且是迄今最可靠、最真实、幻觉最少的模型。
- 价格低廉: API 定价为 $1.25/$10 (GPT-5)。
- 减少干扰: 在拒绝回答时会尝试提供尽可能有用的信息,而不是简单地拒绝。
然而,其他 OpenAI 员工的发言则更侧重于实用性、准确性和统一体验,而非基础智能的突破。
Christina Kim (OpenAI): “评估指标是顶尖的,但真正的故事在于实用性。它在人们关心的领域——编写代码、创意写作和获取健康信息——表现得更稳定、摩擦更少。我们还减少了幻觉。”
这表明,GPT-5 的核心卖点并非变得“更聪明”,而是帮助用户更好地完成日常任务。
发布中的混乱与失误
此次发布伴随着一些明显的错误,削弱了其可信度。
- 图表错误: 发布会上的图表存在误导性,例如一个关于模型欺骗性行为的图表,其数据与实际不符。
- 演示漏洞: 第一个演示就存在 Bug,允许游戏角色无限跳跃。另一个例子错误地解释了飞机机翼产生升力的原理。
- 自动切换器失灵: 发布后,模型自动切换功能一度损坏,导致 GPT-5 表现得比实际“更笨”,Sam Altman 事后承认了这一点。
L: “搞砸了高影响力演示图表的人,在其他方面也无法被信任。这告诉我他们已经偏离了方向,无法被信任。”
这些细节上的失误让人担忧,如果连这些都处理不好,未来如何管理更强大的 AGI?
幻觉减少:关键进步
GPT-5 最重要的实际改进可能是幻觉发生率的降低。这直接提升了模型在各类基准测试和实际应用中的成功率。
Gallabytes: “‘幻觉更少的 o3’ 实际上是一个非常好的模型概念,我很高兴能用上它。这足以让我转向使用 GPT-5-Thinking 来处理许多长查询。”
减少幻觉是让 AI 从一个有趣的玩具变成可靠工具的关键一步。
对发展时间线的影响
GPT-5 的发布让许多人调整了对 AGI 到来的预期。因为它专注于实用性而非基础能力的突破,表明通过现有技术快速实现颠覆性进展的可能性降低了。
- 短期预期放缓: 许多人认为,他们到 2030 年仍然会有工作。这次更新排除了 AI 能力在短期内爆炸性增长的可能性。
- 长期趋势不变: 尽管如此,这并不意味着 AI 发展停滞。GPT-5 的进步符合过去几年的发展曲线,只是从 GPT-4 到 GPT-5 的大部分改进已通过之前的 o3 模型提前释放。
Peter Wildeford: “GPT-5 的确排除了强化学习(RL)规模化能够迅速展开,从而带来极快 AI 进展的可能性。”
Samuel Hammond: "GPT-5 的表现基本符合趋势。没有理由进行大幅度的预期调整,尤其是考虑到这只是一次产品发布,而不是最前沿的模型展示。"
持续存在的问题
尽管有所改进,但一些老问题依然存在。
- 谄媚(Sycophancy): GPT-5 仍然存在讨好用户的倾向,尤其是在非思考模式下。当被要求评价一个伪造的证明时,它的评分仍然偏高,尽管比 GPT-4o 要好。
- 误导(Gaslighting): 当模型在一个对话上下文中锁定某个错误答案时,它会倾向于坚持己见并误导用户,这个问题尚未解决。
Pro 模型的价值
对于需要最高质量输出的复杂任务,GPT-5-Pro 是不二之选。
OpenAI: “在超过 1000 个具有经济价值的真实世界推理任务评估中,外部专家在 67.8% 的情况下更偏爱 GPT-5 Pro 而非 GPT-5 Thinking。Pro 版本的重大错误减少了 22%。”
用户反馈也证实了 Pro 模型的巨大价值,尤其是在健康、科学和编码等专业领域,它能提供“令人难以置信”的连贯和深刻的回答。
展望未来
OpenAI 仍在以极快的速度迭代和推出更新。这次发布更像是一次产品优化,而非技术前沿的重大突破。真正的能力飞跃可能会在未来某个时间点到来。
虽然这次更新让一些人感到失望,但这并不意味着 AI 的发展已经停滞。相反,它将 AI 的实用性推向了更广泛的用户群体。我们需要为短期内的平稳发展做好准备,同时也要警惕,这并非故事的结局。