Synth Daily

未来的信号:GPT-5.5

GPT-5.5 在模型、应用和工具整合方面取得了显著进步,特别是在编码和图像生成方面。通过生成进化中的3D城镇和撰写近博士水平的学术论文等任务,它展示了处理复杂工作的强大能力和惊人速度。尽管在长篇小说创作等领域仍有不足,但这些成果表明人工智能的能力仍在飞速提升,不断拓展其应用边界。

一个简单的例子:进化中的城镇

随着 AI 变得越来越强,展示其代际进步也愈发困难。过去 AI 不擅长的数学或数数等任务,现在已是小菜一碟。因此,作者设计了一个更复杂的编码挑战来测试不同 AI 模型的能力:

  • 挑战内容: “为我构建一个程序化生成的 3D 模拟,展示一个港口城镇从公元前 3000 年到公元 3000 年的演变过程,它应该看起来很漂亮,并允许我进行一些控制。”

  • 测试对象: 包括 OpenAI 的早期推理模型、当前最好的开源模型以及最新的 GPT-5.5 Pro。

  • 结果对比: 只有 GPT-5.5 Pro 真正模拟了一个不断演变的城镇,而不仅仅是随时间推移替换建筑。此外,它的速度也大幅提升,完成任务仅需 20 分钟,而其前代版本需要 33 分钟。

模型、应用与工具整合

要理解人工智能,需要将其看作三个相互关联的概念的组合:

  • 模型 (Models): 这是核心的 AI 系统,例如 GPT-5.5。
  • 应用 (Apps): 这是用户与模型交互的产品,如 ChatGPT 网站或桌面应用 OpenAI Codex。
  • 工具整合 (Harnesses): 这是 AI 用来执行任务的工具集,例如控制电脑、编写代码、研究或生成图像。

OpenAI 在这三个方面都取得了进展。模型层面,GPT-5.5 Pro 是最强大的。应用层面,桌面应用正变得越来越有用。而在工具整合方面,最有趣的进步之一是其全新的图像模型。

“一张水獭科学家的照片,展示了伊森·莫里克(Ethan Mollick)的水獭测试结果,该测试展示了 AI 图像生成器制作‘一只水獭坐在飞机上使用 wifi’图像的能力有多强。”

这个新的图像模型几乎可以生成你所描述的任何图片,甚至能高质量地渲染文本。这种能力非常实用,可以用来制作幻灯片、产品模型或网站示例。当模型、应用和工具整合在一起解决实际问题时,真正的魔力才会发生。

综合应用:从学术论文到游戏创作

作者通过两个复杂的任务,展示了将这三者结合起来的巨大威力。

  • 撰写学术论文: 作者将自己十年来积累的关于众筹的数百个匿名数据文件(包括各种格式)交给了由 GPT-5.5 驱动的 Codex。 他只用了四个提示,要求 AI 对数据进行分类、提出新假设、进行复杂检验并撰写一篇完整的学术论文。 其结果令人印象深刻,达到了 “博士二年级项目” 的水准。论文中的文献综述和统计数据都是真实的。虽然作为专家,作者认为其假设不够有趣,但这已是一个惊人的成就。

  • 创造桌面角色扮演游戏: 作者要求 Codex 创造一个全新的桌面角色扮演游戏,包含完整的世界观、规则和表格。 AI 不仅完成了任务,还模拟了玩家体验并据此修订规则,最终生成了一份 设计精美、配有插图的 101 页 PDF。 游戏设定新颖有趣,规则也看似合理。

依然存在的“崎岖边界”

尽管取得了惊人的技术进步,AI 能力的“崎岖边界”依然存在。

天气和建筑是在不同速度下的同一种争论。

每一代 AI 模型在创作长篇小说方面都表现不佳。当前的作品仍然存在一些明显的问题:

  • 偏爱怪诞和离奇的表达。
  • 想法过于复杂,但未能充分展现。
  • 使用奇怪的隐喻,让人费解。
  • 滥用华丽的句子,使人阅读疲劳。
  • 所有角色的对话都用同一种简短、生硬的语气。

这表明,即使在技术上取得了巨大飞跃,AI 在创造性内容的深度和细微之处仍然存在明显短板。

尽管如此,GPT-5.5 仍然是一个重要的里程碑。它表明 AI 的模型越来越智能,应用越来越强大,工具整合也越来越完善。一年前无法想象的事情,现在已经变得轻而易举,而且能力提升的速度似乎还在加快。AI 的局限性依然存在,但那条边界已经比以往任何时候都推得更远了。