GPT-5:智能小步,普通人大跨越
GPT-5 的发布并未带来预期的智能大飞跃,而是一次专注于实用性的稳健升级。它通过提升速度、降低成本和减少“幻觉”现象,显著改善了普通用户的体验。尽管基准测试表现平平,未能超越竞争对手,但其采用的双模型架构体现了 AI 发展的新范式。最终,GPT-5 的核心价值在于推动 AI 应用的普及和商业化,而非引领智能本身的质变。
期望与现实的差距
从 GPT-2 到 GPT-4,每一代模型都曾给世界带来巨大震撼。然而,近期的 AI 发展进入了渐进式更新的阶段,这使得 OpenAI 一直在寻找一个足以配得上 “GPT-5” 之名的巨大突破,但并未成功。
现实是,GPT-5 并非一次智能上的巨大飞跃。对于专家而言,它在基准测试中只是小幅进步,主观感受也相对平淡。但这并不意味着令人失望,恰恰相反,它完全符合 AI 在未来十年内快速发展的趋势。
最重要的是,GPT-5 对日常用户来说是一次巨大的可用性胜利——它比前代产品更快、更便宜、更易于使用,并在幻觉等问题上有显著改善。
基准测试:符合预期的表现
尽管正式的基准测试因其客观、可量化而很有价值,但它们往往只关注那些易于衡量和验证的任务,这与现实世界中模糊、复杂的问题相去甚远。
GPT-5 在各项基准测试中的表现基本符合现有趋势,并未带来颠覆性的结果:
- 软件工程能力 (SWE-Bench): 得分低于 Claude 4.1 Opus,表现平平。
- 高级软件工程 (METR): 进步幅度与基于过去趋势的预测一致。
- 博士级科学问题 (GPQA): 表现与 Gemini 和 Grok 处于同一水平。
- 数学与推理能力: 在高级数学方面有所进步,但在通用推理上未能超越竞争对手。
- 研究与分析能力 (Deep Research Bench): 仅以微弱优势胜出,表现出“参差不齐”的特点,更像是对现有模型的补充,而非替代。
主观感受:专家评价平平
除了正式测试,另一种评估方法是依赖人类专家的主观判断,即所谓的“感觉”。这种方法能捕捉到正式评估所遗漏的维度,如适应性、不确定性下的推理能力和创造力。
- 大众用户投票 (LMArena): GPT-5 略微领先,但该平台的普通投票者往往难以区分顶尖模型之间的细微差别,如同普通人品尝不出昂贵红酒与廉价红酒的区别。
- 领域专家评价: 许多在各自领域有良好评估记录的专家认为,GPT-5 的表现是“平平无奇”的。例如,专业数学家和选举预测专家均未发现它在各自领域有显著提升。
AI 发展范式的转变
过去,提升 AI 能力的主要方式是“做大模型”——投入更多的数据和算力。但如今,提升模型质量的方式已经变得更加多元化。
AI 发展的火箭已经耗尽了第一级推进器(传统训练),但围绕训练后强化学习、推理时计算和外部工具支持的第二级推进器依然动力强劲。
目前提升模型有四种主要途径:
- 增加训练量: 传统的扩大规模方式。
- 训练后强化学习: 向模型展示大量问题和解决方案,并训练它解决这些问题。
- 增加推理时计算: 让模型在回答问题时花费更多时间“思考”,考虑更多可能性。
- 改进外部工具支持: 为模型提供网络搜索、计算器等工具来更好地回答问题。
GPT-5 正是这种新范式的体现。它本质上是两个模型被粘合在一起:一个擅长创意写作和快速回答的“基础模型”,以及一个能更深入处理数学、科学和软件问题的“推理模型”。一个动态路由器会根据你的问题,决定使用哪个模型。
然而,这次发布并未解答关于 AI 发展的几个关键问题,例如:
- 传统训练是否已死? GPT-5 似乎使用了更小更快的模型作为基础,这暗示着单纯扩大基础模型的规模可能回报不足。
- 新方法的扩展性如何? 我们仍不清楚持续投入强化学习和推理时计算,能否带来持续的性能提升。
- AI 的实用代理能力进展如何? GPT-5 能否更好地使用电脑自主完成订票、预算等任务?目前看来进展不大。
服务大众,而非 AI 精英
GPT-5 的真正重点可能并非满足 AI 爱好者的期待,而是服务于更广泛的普通用户。
对许多企业级 AI 应用来说,速度、成本和可靠性是比智能更大的瓶颈。GPT-5 正在解决这些真正重要的问题。
对于占 ChatGPT 用户总量 98% 的免费用户来说,他们现在可以使用一个更强大、更易用的模型。
- 使用更简单: 用户无需再纠结于不同版本的模型,系统会自动为你选择最合适的。
- 可靠性更高: “幻觉”现象显著减少。
- 响应速度极快: 是目前市场上响应最快的模型之一。
虽然 GPT-5 没有带来智能的下一次革命,但它为绝大多数真实用户带来了价值。AI 公司的收入预测也证实了这一点,其商业价值正在飞速增长。精英们或许还在等待下一次烟花,但对于普通人来说,GPT-5 已经是迄今为止最好用的 ChatGPT。