Synth Daily

OpenAI重磅发布GPT-5

· 2025-08-08

OpenAI发布了其新的旗舰模型GPT-5，这是一个“统一”模型，旨在让ChatGPT从聊天机器人转变为能主动完成任务的AI代理。该模型将作为所有免费用户的默认选项，其在编码、医疗咨询和创意设计方面表现出色，并显著降低了信息“幻觉”的发生率，旨在为用户提供更可靠、更强大的AI体验。

新一代的统一AI模型

GPT-5是OpenAI首个“统一”AI模型，它结合了o系列模型的推理能力和GPT系列的快速响应能力。这一代模型的发布，标志着ChatGPT正朝着一个更宏大的目标发展：成为能够为用户主动完成任务的AI代理，而不仅仅是一个聊天机器人。

核心转变: 从提供智能问答的聊天机器人，转变为能代表用户执行具体任务的AI代理。
任务能力: 能够生成软件应用、管理用户日历或创建研究简报。
智能路由: GPT-5内置一个实时路由器，能自动判断如何提供最佳答案，是快速回应还是花更多时间“思考”。

OpenAI CEO Sam Altman声称，GPT-5是“世界上最好的模型”，是迈向通用人工智能（AGI）的“重要一步”。

一个关键的策略是，GPT-5将作为所有ChatGPT免费用户的默认模型。这让普通用户首次能够直接使用具备高级推理能力的AI模型，实现了OpenAI将先进AI普及大众的使命。

性能对比与关键优势

OpenAI声称GPT-5在多个领域的性能达到了业界顶尖水平，略微领先于来自Anthropic、Google DeepMind和xAI的竞争模型。

编码能力: 在测试真实世界编程任务的 SWE-bench Verified 基准上，GPT-5首次尝试得分74.9%，略高于Anthropic的Claude Opus 4.1（74.5%）。
科学问题: 在测试博士级科学问题的 GPQA Diamond 基准上，GPT-5 Pro得分89.4%，优于Claude Opus 4.1（80.9%）和Grok 4 Heavy（88.9%）。
综合测试: 在衡量数学、人文和自然科学能力的 Humanity’s Last Exam 测试中，GPT-5 Pro得分为42%，略低于xAI的Grok 4 Heavy（44.4%）。
创意领域: OpenAI表示，GPT-5在创意设计和写作等主观领域的响应更自然，并表现出“更好的品味”。

显著降低幻觉率与提升安全性

相比前代模型，GPT-5在准确性和安全性上取得了显著进步，尤其是在减少“幻觉”（AI模型捏造信息）方面。

在内部测试中，GPT-5（在思考模式下）出现幻觉或提供不正确信息的比例为 4.8%。这与o3（22%）和GPT-4o（20.6%）相比是巨大的进步。

医疗问题准确性: 在一项衡量医疗相关问题准确性的测试中，GPT-5的幻觉率仅为1.6%，远低于其前代模型。
安全性提升: GPT-5表现出欺骗性行为的频率更低，并且能更准确地识别和拒绝恶意用户的有害请求，同时减少对无害请求的误拒。这创造了一个更透明、更值得信赖的用户体验。

面向用户与开发者的更新

除了核心模型的升级，此次发布也为普通用户和开发者带来了一系列新功能。

用户体验升级

新增人格: 用户现在可以在设置中选择四种新的人格：Cynic（愤世嫉俗者）、Robot（机器人）、Listener（倾听者）和Nerd（书呆子）。
订阅计划: ChatGPT Plus订阅者拥有比免费用户更高的使用限额，而Pro订阅者则可以无限制访问GPT-5，以及一个计算资源更多的增强版GPT-5 Pro。

开发者API更新

多种尺寸: 开发者可以在API中选择三种不同规模的模型：gpt-5、gpt-5-mini和gpt-5-nano。
灵活控制: API现在允许开发者控制模型响应的详细程度（长短）。
定价: GPT-5基础模型的API定价为每百万输入token（约75万单词）收费$1.25，每百万输出token收费$10。