GPT-5.5 在模型、应用和工具整合方面取得了显著进步,特别是在编码和图像生成方面。通过生成进化中的3D城镇和撰写近博士水平的学术论文等任务,它展示了处理复杂工作的强大能力和惊人速度。尽管在长篇小说创作等领域仍有不足,但这些成果表明人工智能的能力仍在飞速提升,不断拓展其应用边界。
一个简单的例子:进化中的城镇
随着 AI 变得越来越强,展示其代际进步也愈发困难。过去 AI 不擅长的数学或数数等任务,现在已是小菜一碟。因此,作者设计了一个更复杂的编码挑战来测试不同 AI 模型的能力:
挑战内容: “为我构建一个程序化生成的 3D 模拟,展示一个港口城镇从公元前 3000 年到公元 3000 年的演变过程,它应该看起来很漂亮,并允许我进行一些控制。”
测试对象: 包括 OpenAI 的早期推理模型、当前最好的开源模型以及最新的 GPT-5.5 Pro。
结果对比: 只有 GPT-5.5 Pro 真正模拟了一个不断演变的城镇,而不仅仅是随时间推移替换建筑。此外,它的速度也大幅提升,完成任务仅需 20 分钟,而其前代版本需要 33 分钟。
模型、应用与工具整合
要理解人工智能,需要将其看作三个相互关联的概念的组合:
- 模型 (Models): 这是核心的 AI 系统,例如 GPT-5.5。
- 应用 (Apps): 这是用户与模型交互的产品,如 ChatGPT 网站或桌面应用 OpenAI Codex。
- 工具整合 (Harnesses): 这是 AI 用来执行任务的工具集,例如控制电脑、编写代码、研究或生成图像。
OpenAI 在这三个方面都取得了进展。模型层面,GPT-5.5 Pro 是最强大的。应用层面,桌面应用正变得越来越有用。而在工具整合方面,最有趣的进步之一是其全新的图像模型。
“一张水獭科学家的照片,展示了伊森·莫里克(Ethan Mollick)的水獭测试结果,该测试展示了 AI 图像生成器制作‘一只水獭坐在飞机上使用 wifi’图像的能力有多强。”
这个新的图像模型几乎可以生成你所描述的任何图片,甚至能高质量地渲染文本。这种能力非常实用,可以用来制作幻灯片、产品模型或网站示例。当模型、应用和工具整合在一起解决实际问题时,真正的魔力才会发生。
综合应用:从学术论文到游戏创作
作者通过两个复杂的任务,展示了将这三者结合起来的巨大威力。
撰写学术论文: 作者将自己十年来积累的关于众筹的数百个匿名数据文件(包括各种格式)交给了由 GPT-5.5 驱动的 Codex。 他只用了四个提示,要求 AI 对数据进行分类、提出新假设、进行复杂检验并撰写一篇完整的学术论文。 其结果令人印象深刻,达到了 “博士二年级项目” 的水准。论文中的文献综述和统计数据都是真实的。虽然作为专家,作者认为其假设不够有趣,但这已是一个惊人的成就。
创造桌面角色扮演游戏: 作者要求 Codex 创造一个全新的桌面角色扮演游戏,包含完整的世界观、规则和表格。 AI 不仅完成了任务,还模拟了玩家体验并据此修订规则,最终生成了一份 设计精美、配有插图的 101 页 PDF。 游戏设定新颖有趣,规则也看似合理。
依然存在的“崎岖边界”
尽管取得了惊人的技术进步,AI 能力的“崎岖边界”依然存在。
天气和建筑是在不同速度下的同一种争论。
每一代 AI 模型在创作长篇小说方面都表现不佳。当前的作品仍然存在一些明显的问题:
- 偏爱怪诞和离奇的表达。
- 想法过于复杂,但未能充分展现。
- 使用奇怪的隐喻,让人费解。
- 滥用华丽的句子,使人阅读疲劳。
- 所有角色的对话都用同一种简短、生硬的语气。
这表明,即使在技术上取得了巨大飞跃,AI 在创造性内容的深度和细微之处仍然存在明显短板。
尽管如此,GPT-5.5 仍然是一个重要的里程碑。它表明 AI 的模型越来越智能,应用越来越强大,工具整合也越来越完善。一年前无法想象的事情,现在已经变得轻而易举,而且能力提升的速度似乎还在加快。AI 的局限性依然存在,但那条边界已经比以往任何时候都推得更远了。