OpenAI 发布了 GPT-5.5,这是一款在智能和直观性上都取得显著进步的新模型。它擅长处理编码、数据分析和文档处理等多步骤复杂任务,能够在保持高响应速度的同时,实现更强的自主工作能力和更高的效率。该模型配备了更严格的安全措施,特别是在网络安全和生物技术领域,确保其被负责任地使用。目前,GPT-5.5 已向部分付费用户开放,并即将推出 API 版本,旨在推动软件工程、科学研究和企业工作流程的革新。
核心能力:更智能、更自主
GPT-5.5 能够更快地理解用户意图,并独立完成更多工作。它不再需要用户进行细致的步骤管理,而是可以处理混乱、多部分组成的任务,并自主完成规划、工具使用和工作检查。
- 编码与调试: 在编写和调试代码方面表现出色,能更好地理解系统结构和上下文。
- 知识工作: 擅长在线研究、数据分析以及创建文档和电子表格。
- 多任务执行: 能够跨越不同工具,直到完成一项复杂的任务。
- 智能与效率: 实现了 更高的智能水平,但没有牺牲速度。它能用更少的计算资源 (tokens) 完成相同的任务,使其 更高效,也更强大。
“失去 GPT-5.5 的使用权限,感觉就像我的四肢被截去了一样。” — 一位 NVIDIA 工程师
编码能力的飞跃
GPT-5.5 是目前最强的“代理式”编码模型,能够在复杂的真实世界场景中展现出强大的自主解决问题的能力。
- 自主规划与迭代: 在测试复杂命令行工作流的基准测试中,准确率达到 82.7%。
- 解决实际问题: 在评估解决真实 GitHub 问题的能力时,它能够一次性完成 58.6% 的任务,超越了以往模型。
- 理解系统结构: 早期测试者表示,该模型能更好地理解系统形态,例如“为什么会失败,修复应该在哪里进行,以及代码库的其他部分会受到什么影响”。
“GPT-5.5 比 GPT-5.4 明显更聪明、更执着,编码性能更强,工具使用更可靠。它能持续处理任务更长时间而不会提前中止,这对我们用户委托的复杂、长期工作至关重要。” — Michael Truell, Cursor 联合创始人兼 CEO
赋能知识工作与科学研究
GPT-5.5 不仅在编码方面强大,在日常计算机工作中也同样出色。它能更好地理解用户意图,从而更自然地完成知识工作的整个循环。
- 企业应用: OpenAI 内部团队已将其用于实际工作流程。财务团队用它在两周内加速审查了超过 7 万页的税务文件;市场团队用它自动生成每周业务报告,每周节省 5-10 小时。
- 科学发现: 该模型在协助科学研究方面显示出巨大潜力。
- 在遗传学和定量生物学等领域,它能处理和解释模糊或错误的数据。
- 一个内部版本帮助发现了关于 拉姆齐数 (Ramsey numbers) 的新数学证明,这是一个组合数学中的核心研究领域。
- 研究人员用它分析复杂的基因表达数据集,其产出的报告质量和深度相当于一个团队数月的工作量。
“如果 OpenAI 继续这样发展,药物发现的基础将在今年年底前发生改变。” — Brandon White, Axiom Bio 联合创始人兼 CEO
强化的安全框架
OpenAI 为 GPT-5.5 配备了迄今为止最强大的安全保障措施,旨在减少滥用风险,同时保留其有益用途。
- 严格评估: 模型经过了全面的安全与准备框架评估,并由内外部专家进行了红队测试。
- 重点防护: 增加了针对 网络安全和生物技术 能力的专项测试。
- 网络安全策略: 部署了更严格的分类器来识别潜在的网络风险。同时,通过 “网络可信访问” (Trusted Access for Cyber) 计划,为经过验证的防御者提供更强工具,以加速网络防御。
- 负责任的部署: 将其生物/化学和网络安全能力视为“高风险”级别,并在发布前进行了全面的安全与治理流程。
可用性与定价
GPT-5.5 正在逐步向不同层级的用户推出。
- 当前可用: 已向 ChatGPT 和 Codex 的 Plus、Pro、Business 和 Enterprise 用户推出。
- API 访问: 即将推出 API 版本,具体定价如下:
- gpt-5.5: 每百万输入 tokens 5 美元,每百万输出 tokens 30 美元。
- gpt-5.5-pro: 为追求更高准确性而设计,每百万输入 tokens 30 美元,每百万输出 tokens 180 美元。
尽管定价高于之前的版本,但 GPT-5.5 在智能和效率上都有显著提升,通常能用更少的 tokens 获得更好的结果。