Synth Daily

Nano Banana也能玩转AI绘图提示词,轻松拿捏细节

谷歌发布了一款名为“Nano Banana”的新型AI图像生成模型,它基于自回归技术,能理解并执行长达32,768个token的超长、复杂文本指令。该模型在细节控制和遵循精确指令方面表现出色,甚至能处理HTML和JSON等结构化输入,实现高度定制化的图像生成。尽管在风格迁移和生成速度上不及传统扩散模型,但其强大的提示词理解能力代表了AI图像生成领域的一个重要进步。

什么是 Nano Banana?

Nano Banana(官方名称为 Gemini 2.5 Flash Image)是谷歌推出的一款图像生成模型。与大多数使用“扩散”技术的模型不同,它采用自回归方式,像语言模型生成下一个词语一样逐个生成图像的“token”。

这种方法的关键优势在于对提示词的超强理解能力。相比于生成“好看”的图片,Nano Banana 更擅长精确地执行用户给出的复杂、具体的要求。

  • 技术基础: 基于 Gemini 2.5 Flash 模型,原生支持多模态输入。
  • 核心优势: 极其强大的提示词遵循能力(prompt adherence)。
  • 使用方式: 可通过 Gemini 应用、Google AI Studio 或 Gemini API 免费或付费使用。

测试:精确执行复杂指令

为了检验其指令遵循能力,我们进行了一些测试,结果令人印象深刻。

初始测试:骷髅煎饼

第一个测试使用了一个荒谬但具体的提示:

创建一个三维骷髅形状的煎饼图像,顶部点缀着蓝莓和枫糖浆。

结果非常出色。模型不仅正确生成了骷髅形状的煎饼,还合理地处理了枫糖浆沿着骨骼结构滴落的物理效果。

进阶测试:多重编辑指令

接下来,我们在生成的骷髅煎饼图像上,同时下达了五条独立的编辑指令

对图像进行以下所有编辑:

  • 在左眼窝里放一颗草莓。
  • 在右眼窝里放一颗黑莓。
  • 在煎饼顶部放上薄荷装饰。
  • 把盘子换成一个盘子形状的巧克力曲奇。
  • 在背景中添加快乐的人。

Nano Banana 成功执行了全部五项修改,并且只改变了必要的部分,例如为放置薄荷而移除了原有的蓝莓,同时调整了糖浆在新的曲奇盘子上的汇集方式。

利用强大的文本编码器

Nano Banana 的出色表现源于其强大的文本编码器,该编码器继承自 Gemini 2.5 Flash,后者经过大量 Markdown 和 JSON 数据的训练。这意味着模型能深刻理解结构化指令和细微的语言差异。

案例:三只小猫的复杂规则

一个包含了颜色代码、排版规则、特定约束和拼写错误的复杂提示被用来测试模型的极限:

创建一张包含三只特定位置的小猫的图像。

所有小猫必须严格遵循以下描述:

  • 左边:一只黑银色毛发的小猫,穿着蓝色牛仔背带裤和一顶纯蓝色牛仔棒球帽。
  • 中间:一只白金色毛发、留着金色长山羊胡的小猫,戴着24k金单片眼镜。
  • 右边:一只 #9F2B68 和 #00FF00 两种颜色毛发的小猫,穿着旧金山巨人队的运动衫。

图像构图必须严格遵循以下方面:

  • 所有小猫的位置必须同时符合水平和垂直方向的“三分法”构图。
  • 所有小猫必须面朝相机,俯卧着。
  • 所有小猫的眼睛必须是异色的,且颜色与其指定的两种毛色相匹配。
  • 图像拍摄于一座价值数百万美元的维多利亚式豪宅的床上。
  • 图像是一张为《纽约时报》拍摄的普利策奖获奖封面照片,主体和背景都有中性、漫射的下午3点光线。
  • 绝不包含任何文字、水印或线条叠加。

结果显示,模型遵循了每一条规则,包括从毛色描述中推断出异色瞳的颜色,并正确理解了拼写错误的“San Franciso”。

像工程师一样使用提示词

Nano Banana 支持高达 32,768 个 token 的超长上下文窗口,远超传统模型的几百个 token。这使得使用 HTML 或 JSON 等结构化数据来定义图像成为可能。

  • 渲染网页: 向模型提供一个完整的 HTML、CSS 和 JavaScript 文件,它能大致渲染出页面的布局、颜色和结构。虽然不完美,但这展示了其理解复杂结构的能力。
  • JSON 定义角色: 提供一个包含数百个字段的详细 JSON 文件来描述一个角色,从发量到指甲长度,再到服装材质。模型能够解析这些高度具体的数据并生成一个基本符合所有描述的图像。

通过在提示词中加入“用佳能 EOS 90D 单反相机拍摄”、“真实世界的自然光”等暗示物理性的短语,可以引导模型生成更逼真的照片,而非数字插画。

模型的缺点与问题

尽管功能强大,Nano Banana 仍存在一些明显的不足。

  • 糟糕的风格迁移: 模型在进行风格转换(如将一张真人照片转换为“吉卜力工作室”风格)方面表现很差。它倾向于保持原图的结构,难以应用全新的艺术风格。
  • 知识产权问题: 与一些竞争对手不同,Nano Banana 对生成受版权保护的角色(如马里奥、米老鼠)几乎没有限制,这可能引发法律风险。
  • 内容审核宽松: 在生成 NSFW(不适宜工作场所)内容方面,其审核策略似乎比其他主流模型更为宽松。