一种名为“底稿”的方法可以显著提高 AI 生成图像中文字和数字的准确性。该方法的核心思想是分工合作:首先使用 SVG 或 HTML 等工具创建一个精确包含文字和布局的黑白“底稿”图像,然后将这个底稿提供给多模态图像模型(如 Gemini 3.0 Pro),让模型在此基础上进行“绘画”,负责填充颜色、材质和风格。通过将精确的布局任务与艺术性的创作任务分离,这种方法解决了主流图像模型普遍存在的文字、数字和顺序错误问题。
AI 图像生成的普遍难题
即使是目前最先进的图像模型,在处理需要精确文字、数字或复杂顺序的指令时也常常失败。当要求模型生成一个从 1 到 50 依次编号的螺旋形棋盘时,无论是 Gemini 还是 ChatGPT-Images-2,结果都差强人意。
- 数字错误: 生成的数字会跳跃、重复或完全错误。
- 顺序混乱: 尽管模型理解“螺旋”的概念,但数字的排列顺序往往是混乱的。
- 数量不符: 石头的总数可能不是 50 个。
乍一看可能令人印象深刻,但一旦你开始仔细阅读,就会发现问题百出。
“底稿”方法:一种有效的解决方案
该方法的核心是利用不同工具的各自优势,将一个复杂的任务拆解为两个简单的步骤。
“给它一个轮廓,让它在上面作画。”
这个过程就像传统绘画一样,先有素描底稿,再进行上色。通过为 AI 提供一个包含正确信息和布局的“底稿”,我们不再依赖模型去“思考”数字和顺序,而是让它专注于自己擅长的事情:美化图像。
工作原理:分层与分工
该方法将图像生成过程分为两个独立的层次,让确定性工具和生成式工具各司其职。
第 1 层:确定性的“底稿” 使用 SVG、HTML 或 Python 等任何可以精确控制布局的工具,生成一个只包含核心要素(如数字、文字和位置)的简单图像。这张图像的重点是 100% 的准确性,而非美观。
第 2 层:生成式的“绘画” 使用支持“图像输入+文本输入”的多模态模型。将上一步生成的“底稿”图像与描述最终风格的文本提示(Prompt)一起提交。模型会以底稿为基础,在其上进行二次创作,添加色彩、光影和质感。
一个简单的例子
第一步:用 SVG 生成底稿 用代码生成一个 SVG 图像,其中包含 50 个按逆时针螺旋排列的形状,并清晰地标上 1 到 50 的数字。
第二步:使用底稿进行图生图 将上一步生成的 SVG 图像提交给模型,并附上这样的指令:“将这张图片转换成一张低角度、倾斜视角的粘土动画立体布景照片。图中的物体是一系列按螺旋路径排列的手工巧克力和糖果,编号从外圈的 1 到中心的 50。”
通过这种方式,最终生成的图像既有正确的数字和顺序,又具备了丰富的艺术风格。需要注意的是,虽然这种方法效果很好,但并非每次都能完美无缺。