Synth Daily

ChatGPT 全新 Images 2.0 模型的文本生成能力竟出乎意料地强大

OpenAI 推出了全新的 ChatGPT Images 2.0 模型,它在生成包含文字的图像方面取得了巨大突破,效果远超以往。该模型具备“思考能力”,能联网搜索并生成高达 2K 分辨率的复杂作品,如漫画或营销材料。虽然生成速度较慢,但其生成的图像细节和准确性极高,已很难与人类创作区分。

告别拼写错误的时代

过去,分辨 AI 图像和人类作品相对容易,尤其是在处理文字时。AI 生成的菜单上常常出现拼写错误的菜名。

例如,两年前的 DALL-E 3 模型在生成墨西哥餐厅菜单时,会创造出 “enchuita”、“churiros”、“burrto” 等不存在的词汇。

现在,全新的 ChatGPT Images 2.0 模型可以生成几乎能直接在餐厅使用的菜单,顾客很难发现异常。这标志着 AI 在理解和渲染文本方面取得了质的飞跃。

技术上的突破:从“重构”到“思考”

以往的图像生成器之所以难以正确拼写,是因为它们大多使用扩散模型 (diffusion models)

  • 扩散模型的工作原理:通过从噪点中重构图像来生成内容。
  • 文字处理的难点:文字在整个图像中只占很小一部分像素,导致模型更关注整体图案,而忽略了文字细节的准确性。

尽管 OpenAI 未透露 Images 2.0 的具体技术模型,但解释了其具备“思考能力”。这使其功能更像一个大型语言模型(LLM),能够进行预测和推理,而不仅仅是重构像素。

全新的“思考能力”带来更多可能

这种“思考能力”赋予了 Images 2.0 一系列强大的新功能,使其能够创作更复杂的视觉内容。

  • 联网搜索:获取最新信息来辅助创作。
  • 多图生成:根据一个指令生成多张不同版本的图片。
  • 自我校验:检查并修正生成作品中的细节。
  • 多格式创作:能够轻松生成多种尺寸的营销素材或多面板的漫画。

“Images 2.0 带来了前所未有的特异性和保真度。它不仅能构思更复杂的图像,还能有效地将构想变为现实,遵循指令,保留细节,并渲染出通常会难倒图像模型的精细元素:小文本、图标、UI 元素等,分辨率最高可达 2K。” —— OpenAI

更多细节提升与权衡

除了强大的文本渲染能力,新模型还有其他显著改进。

  • 支持非拉丁文字:对日语、韩语、印地语和孟加拉语等文字的渲染能力更强。
  • 超高分辨率:支持生成高达 2K 分辨率的细腻图像。

当然,这些提升也带来了一些权衡。

  • 生成速度:由于需要进行更复杂的处理,生成图像的速度比单纯的文本问答要慢。不过,创作一幅多面板漫画也仅需几分钟。
  • 知识截止日期:模型的知识库截止于 2025 年 12 月,这可能会影响其生成与最新事件相关内容时的准确性。