Synth Daily

大模型玩转字符级文本操作越来越溜

最新一代的大型语言模型(如 GPT-5 和 Claude 4.5)在处理字符计数、替换和密码破译等字符级操作方面取得了显著进步。测试表明,它们对 Base64 编码和字符算法的理解已经超越了简单的模式记忆,进化出了更深层次的推理能力,尽管其底层文本处理机制仍然是基于词元(token)的。

词元(Token):大模型的根本局限

大型语言模型在处理单个字符时表现不佳,这是其核心机制导致的。所有文本都通过分词器(tokenizer)被转换成词元,而词元通常代表字符簇,有时甚至是完整的单词。

这使得模型很难在比词元更精细的层面上进行操作,尽管它们早已能完成一些简单任务,比如拼出一个单词的字母。

测试一:字符替换

为了展示早期模型的局限性,我们来看一个简单的任务:将句子 "I really love a ripe strawberry" 中所有的 "r" 替换为 "l",然后再将所有的 "l" 替换为 "r"。

  • gpt-3.5-turbo: I lealll love a liple strallbeelly (失败)
  • gpt-4-turbo: I rearry rove a ripe strawberly (失败)
  • gpt-4o: I rearry rove a ripe strawberrry (失败)
  • gpt-4.1: I rearry rove a ripe strawberry (成功)
  • gpt-5: I rearry rove a ripe strawberry (成功)

GPT-4.1 开始,模型能够稳定地完成这项任务。有趣的是,Anthropic 公司的 Claude Sonnet 4 大约在同一时间发布,它也是其家族中第一个能完成此任务的模型。这显示了新一代模型在原始能力上的提升,即使在未开启推理功能的情况下也是如此。

测试二:字符计数

众所周知,大型语言模型不擅长计数。在不开启推理的情况下,只有 GPT-4.1 能够准确数出句子 “I wish I could come up with a better example sentence.” 中的字符数。其他模型要么数错单词内的字符,要么在最后加总时出错。

然而,当允许进行低强度推理时,所有版本的 GPT-5(包括 Nano) 都能正确完成任务。同样,Claude Sonnet 模型在允许推理的情况下也能轻松解决。这表明,推理能力极大地弥补了模型在计数方面的短板。

测试三:解码 Base64 和 ROT20 密码

为了进一步测试模型的能力,实验设计了一个更复杂的双层加密任务:

  1. 内层加密: 使用 ROT20(一种简单的字母替换密码)。
  2. 外层编码: 使用广泛应用的 Base64 编码。

测试发现,许多模型在第一步,即 Base64 解码上就失败了,很可能是因为解码后的 ROT20 密文看起来像无意义的乱码,导致模型无法验证解码是否成功。

关键结果:

  • 早期模型(GPT-4o 及更早版本):完全失败,无法解码 Base64,也无法破译 ROT20。
  • 新一代模型(有推理能力)GPT-5-mini/GPT-5Gemini-2.5-proQwen-235b 能够成功完成两步解码,最终得到原始明文。
  • 安全限制:Claude Sonnet 4.5 和 Grok 4 由于过于敏感的安全策略,拒绝处理任何看起来不像正常文本的输入(无论是 Base64 还是 ROT20 密文),这可能导致它们在处理稀有语言或代码时变得不可用。

我们学到了什么?

这次测试揭示了两个有趣的观察结果:新模型对算法的理解更深刻,并且在字符级操作上变得更加熟练。

1. 对 Base64 编码的理解超越了记忆

许多新一代模型能够解码 Base64,即使其内容是看起来毫无意义的 ROT20 密文。这表明模型不仅仅是记住了常见英文单词的 Base64 模式。

这意味着它们对 Base64 算法本身有了工作层面上的理解,而不仅仅是依赖于记忆库中的翻译模式。

一些在本次测试中失败的旧模型(如 GPT-4o),在处理包含正常英文句子的 Base64 编码时却能成功。这恰恰反衬出新模型在处理“分布外”文本方面的巨大进步。

2. 字符级操作能力的提升

尽管模型的基础依然是词元,但它们在字符替换和替换式密码破译等任务上的表现越来越可靠。这种能力的提升直接体现在基础模型中,而不仅仅是依赖于推理或工具使用等辅助功能。虽然字符级操作对大模型来说远非一个已解决的问题,但它们在这一领域取得的进展是显而易见的。