将文本转换为图像再输入给大语言模型,确实能在大约 40% 的程度上减少输入令牌(prompt tokens)的数量,但这会导致输出令牌(completion tokens)和处理时间显著增加。因此,除非使用像 gpt-5-chat 这样的特定模型,否则从整体成本和效率来看,这种“节省”技巧通常得不偿失。
实验:一个有趣的想法
受到近期一些技术论文的启发,一个问题浮出水面:既然大模型处理图像和处理文本消耗的令牌数差不多,那么我们能否通过将文本转换成图片来节省成本?
为了验证这一点,进行了一个简单的对比实验:
- 任务: 要求模型从一篇关于数字安全习惯的博客文章中,提取并总结所有技巧。
- 方法一(纯文本): 将文章的纯文本内容作为提示词,直接输入给模型。
- 方法二(图像): 将同样的文本内容渲染成两张 768x768 像素的图片,并将图片作为提示词输入给模型。
两种方法都使用了完全相同的指令,要求模型以固定的格式返回结果。
结果分析:输入与输出的权衡
实验结果揭示了一个关键的权衡关系。
输入端:确实节省了令牌
将文本转为图片后,输入端的令牌消耗确实大幅降低。
- 在使用
gpt-5模型时,输入令牌(prompt tokens)减少了超过 40%。 - 这证实了最初的猜想:在输入阶段,图片确实比长文本更“便宜”。
输出端:成本意外增加
然而,节省的故事只讲了一半。在分析模型生成的回复时,情况发生了逆转。
- 除了
gpt-5-chat模型外,所有参与测试的模型在处理图像输入时,都生成了远超纯文本输入的输出令牌(completion tokens)。 - 处理图像输入所需的时间也几乎是处理纯文本的两倍。
鉴于输出令牌通常比输入令牌昂贵得多,这种“节省”实际上导致了更高的总成本。
结论:得不偿失的“优化”
总的来说,通过将文本转换为图片来“优化”令牌消耗是一种得不偿失的方法。
尽管它能在输入端带来一些节省,但这些好处被以下几点完全抵消:
- 更高的输出成本: 输出令牌数量显著增加,导致总费用上升。
- 更低的处理效率: 处理时间大幅延长。
最终结论是,这种方法仅在非常特定的条件下(例如,只关心输入成本且使用了正确的模型)才可能有意义,但对于绝大多数应用场景来说,它带来的麻烦和额外成本远大于其微不足道的收益。