Synth Daily

用图片替代文本,能省下LLM的Token吗?

将文本转换为图像再输入给大语言模型,确实能在大约 40% 的程度上减少输入令牌(prompt tokens)的数量,但这会导致输出令牌(completion tokens)和处理时间显著增加。因此,除非使用像 gpt-5-chat 这样的特定模型,否则从整体成本和效率来看,这种“节省”技巧通常得不偿失。

实验:一个有趣的想法

受到近期一些技术论文的启发,一个问题浮出水面:既然大模型处理图像和处理文本消耗的令牌数差不多,那么我们能否通过将文本转换成图片来节省成本?

为了验证这一点,进行了一个简单的对比实验:

  • 任务: 要求模型从一篇关于数字安全习惯的博客文章中,提取并总结所有技巧。
  • 方法一(纯文本): 将文章的纯文本内容作为提示词,直接输入给模型。
  • 方法二(图像): 将同样的文本内容渲染成两张 768x768 像素的图片,并将图片作为提示词输入给模型。

两种方法都使用了完全相同的指令,要求模型以固定的格式返回结果。

结果分析:输入与输出的权衡

实验结果揭示了一个关键的权衡关系。

输入端:确实节省了令牌

将文本转为图片后,输入端的令牌消耗确实大幅降低。

  • 在使用 gpt-5 模型时,输入令牌(prompt tokens)减少了超过 40%
  • 这证实了最初的猜想:在输入阶段,图片确实比长文本更“便宜”。

输出端:成本意外增加

然而,节省的故事只讲了一半。在分析模型生成的回复时,情况发生了逆转。

  • 除了 gpt-5-chat 模型外,所有参与测试的模型在处理图像输入时,都生成了远超纯文本输入的输出令牌(completion tokens)
  • 处理图像输入所需的时间也几乎是处理纯文本的两倍

鉴于输出令牌通常比输入令牌昂贵得多,这种“节省”实际上导致了更高的总成本。

结论:得不偿失的“优化”

总的来说,通过将文本转换为图片来“优化”令牌消耗是一种得不偿失的方法。

尽管它能在输入端带来一些节省,但这些好处被以下几点完全抵消:

  • 更高的输出成本: 输出令牌数量显著增加,导致总费用上升。
  • 更低的处理效率: 处理时间大幅延长。

最终结论是,这种方法仅在非常特定的条件下(例如,只关心输入成本且使用了正确的模型)才可能有意义,但对于绝大多数应用场景来说,它带来的麻烦和额外成本远大于其微不足道的收益。