使用“底稿”来准确绘制文字和数字

一种名为“底稿”的方法可以显著提高 AI 生成图像中文字和数字的准确性。该方法的核心思想是分工合作：首先使用 SVG 或 HTML 等工具创建一个精确包含文字和布局的黑白“底稿”图像，然后将这个底稿提供给多模态图像模型（如 Gemini 3.0 Pro），让模型在此基础上进行“绘画”，负责填充颜色、材质和风格。通过将精确的布局任务与艺术性的创作任务分离，这种方法解决了主流图像模型普遍存在的文字、数字和顺序错误问题。

AI 图像生成的普遍难题

即使是目前最先进的图像模型，在处理需要精确文字、数字或复杂顺序的指令时也常常失败。当要求模型生成一个从 1 到 50 依次编号的螺旋形棋盘时，无论是 Gemini 还是 ChatGPT-Images-2，结果都差强人意。

数字错误： 生成的数字会跳跃、重复或完全错误。
顺序混乱： 尽管模型理解“螺旋”的概念，但数字的排列顺序往往是混乱的。
数量不符： 石头的总数可能不是 50 个。

乍一看可能令人印象深刻，但一旦你开始仔细阅读，就会发现问题百出。

“底稿”方法：一种有效的解决方案

该方法的核心是利用不同工具的各自优势，将一个复杂的任务拆解为两个简单的步骤。

“给它一个轮廓，让它在上面作画。”

这个过程就像传统绘画一样，先有素描底稿，再进行上色。通过为 AI 提供一个包含正确信息和布局的“底稿”，我们不再依赖模型去“思考”数字和顺序，而是让它专注于自己擅长的事情：美化图像。

工作原理：分层与分工

该方法将图像生成过程分为两个独立的层次，让确定性工具和生成式工具各司其职。

第 1 层：确定性的“底稿” 使用 SVG、HTML 或 Python 等任何可以精确控制布局的工具，生成一个只包含核心要素（如数字、文字和位置）的简单图像。这张图像的重点是 100% 的准确性，而非美观。
第 2 层：生成式的“绘画” 使用支持“图像输入+文本输入”的多模态模型。将上一步生成的“底稿”图像与描述最终风格的文本提示（Prompt）一起提交。模型会以底稿为基础，在其上进行二次创作，添加色彩、光影和质感。

一个简单的例子

第一步：用 SVG 生成底稿 用代码生成一个 SVG 图像，其中包含 50 个按逆时针螺旋排列的形状，并清晰地标上 1 到 50 的数字。

第二步：使用底稿进行图生图 将上一步生成的 SVG 图像提交给模型，并附上这样的指令：“将这张图片转换成一张低角度、倾斜视角的粘土动画立体布景照片。图中的物体是一系列按螺旋路径排列的手工巧克力和糖果，编号从外圈的 1 到中心的 50。”

通过这种方式，最终生成的图像既有正确的数字和顺序，又具备了丰富的艺术风格。需要注意的是，虽然这种方法效果很好，但并非每次都能完美无缺。