大模型玩转字符级文本操作越来越溜

最新一代的大型语言模型（如 GPT-5 和 Claude 4.5）在处理字符计数、替换和密码破译等字符级操作方面取得了显著进步。测试表明，它们对 Base64 编码和字符算法的理解已经超越了简单的模式记忆，进化出了更深层次的推理能力，尽管其底层文本处理机制仍然是基于词元（token）的。

词元（Token）：大模型的根本局限

大型语言模型在处理单个字符时表现不佳，这是其核心机制导致的。所有文本都通过分词器（tokenizer）被转换成词元，而词元通常代表字符簇，有时甚至是完整的单词。

这使得模型很难在比词元更精细的层面上进行操作，尽管它们早已能完成一些简单任务，比如拼出一个单词的字母。

为了展示早期模型的局限性，我们来看一个简单的任务：将句子 "I really love a ripe strawberry" 中所有的 "r" 替换为 "l"，然后再将所有的 "l" 替换为 "r"。

从 GPT-4.1 开始，模型能够稳定地完成这项任务。有趣的是，Anthropic 公司的 Claude Sonnet 4 大约在同一时间发布，它也是其家族中第一个能完成此任务的模型。这显示了新一代模型在原始能力上的提升，即使在未开启推理功能的情况下也是如此。

众所周知，大型语言模型不擅长计数。在不开启推理的情况下，只有 GPT-4.1 能够准确数出句子 “I wish I could come up with a better example sentence.” 中的字符数。其他模型要么数错单词内的字符，要么在最后加总时出错。

然而，当允许进行低强度推理时，所有版本的 GPT-5（包括 Nano） 都能正确完成任务。同样，Claude Sonnet 模型在允许推理的情况下也能轻松解决。这表明，推理能力极大地弥补了模型在计数方面的短板。

为了进一步测试模型的能力，实验设计了一个更复杂的双层加密任务：

测试发现，许多模型在第一步，即 Base64 解码上就失败了，很可能是因为解码后的 ROT20 密文看起来像无意义的乱码，导致模型无法验证解码是否成功。

关键结果：

早期模型（GPT-4o 及更早版本）：完全失败，无法解码 Base64，也无法破译 ROT20。
新一代模型（有推理能力）：GPT-5-mini/GPT-5、Gemini-2.5-pro 和 Qwen-235b 能够成功完成两步解码，最终得到原始明文。
安全限制：Claude Sonnet 4.5 和 Grok 4 由于过于敏感的安全策略，拒绝处理任何看起来不像正常文本的输入（无论是 Base64 还是 ROT20 密文），这可能导致它们在处理稀有语言或代码时变得不可用。

这次测试揭示了两个有趣的观察结果：新模型对算法的理解更深刻，并且在字符级操作上变得更加熟练。

许多新一代模型能够解码 Base64，即使其内容是看起来毫无意义的 ROT20 密文。这表明模型不仅仅是记住了常见英文单词的 Base64 模式。

这意味着它们对 Base64 算法本身有了工作层面上的理解，而不仅仅是依赖于记忆库中的翻译模式。

一些在本次测试中失败的旧模型（如 GPT-4o），在处理包含正常英文句子的 Base64 编码时却能成功。这恰恰反衬出新模型在处理“分布外”文本方面的巨大进步。

尽管模型的基础依然是词元，但它们在字符替换和替换式密码破译等任务上的表现越来越可靠。这种能力的提升直接体现在基础模型中，而不仅仅是依赖于推理或工具使用等辅助功能。虽然字符级操作对大模型来说远非一个已解决的问题，但它们在这一领域取得的进展是显而易见的。