Synth Daily

OpenAI重磅发布GPT-5

OpenAI发布了其新的旗舰模型GPT-5,这是一个“统一”模型,旨在让ChatGPT从聊天机器人转变为能主动完成任务的AI代理。该模型将作为所有免费用户的默认选项,其在编码、医疗咨询和创意设计方面表现出色,并显著降低了信息“幻觉”的发生率,旨在为用户提供更可靠、更强大的AI体验。

新一代的统一AI模型

GPT-5是OpenAI首个“统一”AI模型,它结合了o系列模型的推理能力和GPT系列的快速响应能力。这一代模型的发布,标志着ChatGPT正朝着一个更宏大的目标发展:成为能够为用户主动完成任务的AI代理,而不仅仅是一个聊天机器人。

  • 核心转变: 从提供智能问答的聊天机器人,转变为能代表用户执行具体任务的AI代理
  • 任务能力: 能够生成软件应用、管理用户日历或创建研究简报。
  • 智能路由: GPT-5内置一个实时路由器,能自动判断如何提供最佳答案,是快速回应还是花更多时间“思考”。

OpenAI CEO Sam Altman声称,GPT-5是“世界上最好的模型”,是迈向通用人工智能(AGI)的“重要一步”。

一个关键的策略是,GPT-5将作为所有ChatGPT免费用户的默认模型。这让普通用户首次能够直接使用具备高级推理能力的AI模型,实现了OpenAI将先进AI普及大众的使命。

性能对比与关键优势

OpenAI声称GPT-5在多个领域的性能达到了业界顶尖水平,略微领先于来自Anthropic、Google DeepMind和xAI的竞争模型。

  • 编码能力: 在测试真实世界编程任务的 SWE-bench Verified 基准上,GPT-5首次尝试得分74.9%,略高于Anthropic的Claude Opus 4.1(74.5%)。
  • 科学问题: 在测试博士级科学问题的 GPQA Diamond 基准上,GPT-5 Pro得分89.4%,优于Claude Opus 4.1(80.9%)和Grok 4 Heavy(88.9%)。
  • 综合测试: 在衡量数学、人文和自然科学能力的 Humanity’s Last Exam 测试中,GPT-5 Pro得分为42%,略低于xAI的Grok 4 Heavy(44.4%)。
  • 创意领域: OpenAI表示,GPT-5在创意设计和写作等主观领域的响应更自然,并表现出“更好的品味”。

显著降低幻觉率与提升安全性

相比前代模型,GPT-5在准确性和安全性上取得了显著进步,尤其是在减少“幻觉”(AI模型捏造信息)方面。

在内部测试中,GPT-5(在思考模式下)出现幻觉或提供不正确信息的比例为 4.8%。这与o3(22%)和GPT-4o(20.6%)相比是巨大的进步。

  • 医疗问题准确性: 在一项衡量医疗相关问题准确性的测试中,GPT-5的幻觉率仅为1.6%,远低于其前代模型。
  • 安全性提升: GPT-5表现出欺骗性行为的频率更低,并且能更准确地识别和拒绝恶意用户的有害请求,同时减少对无害请求的误拒。这创造了一个更透明、更值得信赖的用户体验。

面向用户与开发者的更新

除了核心模型的升级,此次发布也为普通用户和开发者带来了一系列新功能。

用户体验升级

  • 新增人格: 用户现在可以在设置中选择四种新的人格:Cynic(愤世嫉俗者)、Robot(机器人)、Listener(倾听者)和Nerd(书呆子)。
  • 订阅计划: ChatGPT Plus订阅者拥有比免费用户更高的使用限额,而Pro订阅者则可以无限制访问GPT-5,以及一个计算资源更多的增强版GPT-5 Pro。

开发者API更新

  • 多种尺寸: 开发者可以在API中选择三种不同规模的模型:gpt-5gpt-5-minigpt-5-nano
  • 灵活控制: API现在允许开发者控制模型响应的详细程度(长短)。
  • 定价: GPT-5基础模型的API定价为每百万输入token(约75万单词)收费$1.25,每百万输出token收费$10。