Synth Daily

ChatGPT 图像 2.0 正式发布了,这次有点强

新发布的 ChatGPT Images 2.0 能够通过简短的提示词生成高质量、逼真的图片,其能力覆盖了从中文漫画到多语言文本、旅行照片等多种风格。这项技术现已对所有 ChatGPT 用户开放,展示了在处理复杂细节和多种宽高比方面的显著进步。尽管如此,该模型在物理世界连贯性和复杂图表准确性等方面仍存在局限性,有待进一步完善。

只需要极短的 Prompt,就可以生成非常高质量的图片,而且很多图片,越来越感受不到是 AI 生成了,足以以假乱真。

生成能力示例

新模型在处理不同风格和复杂需求时表现出色,能够理解并执行细致的指令。

  • 中文漫画与复杂文本: 能够根据极其复杂的指令,生成包含多语言文字、特定人物和多格布局的全彩漫画。即使是极小的中文字体也能清晰可读。

  • 纪实风格照片: 能够模拟胶片质感、特定光线和不完美取景,生成如“随手拍”的逼真旅行或生活场景,充满电影感和真实感。

  • 复杂场景与角色: 可以创建科幻场景(如两个外星人在咖啡馆)、动漫角色设定表,以及具有特定艺术风格的传统中国山水画。

  • 信息图表与证明: 支持生成数学定理的直观证明图(如勾股定理)和信息图表,将抽象概念可视化。

  • 实用设计与广告: 可用于商业广告设计,例如为一家抹茶店生成符合日本极简主义美学、并适配社交媒体多种宽高比的宣传图。

  • 高度风格化创作: 能够理解并执行来自专业人士的详细、充满艺术感的长描述,生成如“粉色汽车旅馆”的梦幻般场景。

如何使用

  • 目前已向所有 ChatGPT 和 Codex 用户开放。
  • ChatGPT Plus、Pro 和 Business 用户可使用更高级的功能。
  • 支持直接在 Codex 中使用,无需单独的 API。

已知局限性

ChatGPT Images 2.0 虽有重大进步,但并不完美,在以下方面仍存在困难:

  • 物理世界连贯性: 对于需要理解完整物理世界的任务(如折纸指南、魔方)表现不佳。
  • 细节准确性: 在隐藏、倾斜或反转的表面上正确显示细节仍是挑战。
  • 图表与标签: 生成的图表和标签可能需要人工审查其准确性,尤其当箭头或部件标签需要非常精确时。

官方将这些限制视为未来工作的重要前沿。