ChatGPT 全新 Images 2.0 模型的文本生成能力竟出乎意料地强大

OpenAI 推出了全新的 ChatGPT Images 2.0 模型，它在生成包含文字的图像方面取得了巨大突破，效果远超以往。该模型具备“思考能力”，能联网搜索并生成高达 2K 分辨率的复杂作品，如漫画或营销材料。虽然生成速度较慢，但其生成的图像细节和准确性极高，已很难与人类创作区分。

告别拼写错误的时代

过去，分辨 AI 图像和人类作品相对容易，尤其是在处理文字时。AI 生成的菜单上常常出现拼写错误的菜名。

例如，两年前的 DALL-E 3 模型在生成墨西哥餐厅菜单时，会创造出 “enchuita”、“churiros”、“burrto” 等不存在的词汇。

现在，全新的 ChatGPT Images 2.0 模型可以生成几乎能直接在餐厅使用的菜单，顾客很难发现异常。这标志着 AI 在理解和渲染文本方面取得了质的飞跃。

以往的图像生成器之所以难以正确拼写，是因为它们大多使用扩散模型 (diffusion models)。

尽管 OpenAI 未透露 Images 2.0 的具体技术模型，但解释了其具备“思考能力”。这使其功能更像一个大型语言模型（LLM），能够进行预测和推理，而不仅仅是重构像素。

这种“思考能力”赋予了 Images 2.0 一系列强大的新功能，使其能够创作更复杂的视觉内容。

“Images 2.0 带来了前所未有的特异性和保真度。它不仅能构思更复杂的图像，还能有效地将构想变为现实，遵循指令，保留细节，并渲染出通常会难倒图像模型的精细元素：小文本、图标、UI 元素等，分辨率最高可达 2K。” —— OpenAI