Synth Daily

为什么谷歌的 AI 连“Google”都拼不对(更别说别的了)

谷歌 AI 搜索在处理一些基础的拼写和计数问题时出现了明显错误,例如错误地计算单词中的字母数量。这一现象暴露了大型语言模型(LLM)的根本局限:它们并非像人类一样通过字母来理解和处理词语,而是基于一种名为“词元”(token)的单位。因此,这类 AI 在拼写和计数等基础任务上表现不佳,这也提醒我们,不能盲目信任 AI 生成的内容,必须保持警惕并自行核查。

离谱的拼写错误

谷歌的 AI 概览功能近期出现了一系列令人啼笑皆非的错误,暴露出其在基础语言理解上的短板。

  • 字母计数错误: 当被问到 “Google” 中有几个 “P” 时,AI 回答有两个。它还声称 “poop” 中有 1 个 “r”。
  • 单词拼写错误: AI 在拼写“journalism”(新闻业)时,错误地写成了 “j-o-u-r-n-a-d-i-s-m”,并声称其中有两个 “d”。
  • 更早的错误: 这并非首次。之前,谷歌 AI 曾引用讽刺网站的内容,建议人们“吃石头”或“在披萨上涂胶水”。

谷歌官方承认:“在单词内部进行计数,一直是大型语言模型面临的已知挑战,我们正在努力解决这个问题。”

为什么 AI 不会“拼写”?

这些看似简单的错误背后,是大型语言模型(LLM)的底层技术架构决定的。它们在处理语言时的方式与人类完全不同。

  • 基于“词元”而非字母: AI 并不会像人一样将句子看作由单词和字母组成。许多 LLM 基于 Transformer 架构,它会将文本分解成 词元(token)。一个词元可以是一个完整的单词、一个音节,甚至是单个字母。
  • 数字编码的转换: AI 在处理输入时,会将文本转换成数字编码。AI 研究员 Matthew Guzdial 解释说:“当 AI 看到单词 ‘the’ 时,它有一个关于 ‘the’ 含义的编码,但它并不知道 ‘T’、‘H’、‘E’ 这三个字母。”
  • 固有的局限性: 这种基于词元的架构是 根本性的限制。研究人员对此并不乐观,认为很难彻底解决拼写问题,因为不存在一个“完美”的词元化方案。

对我们的启示

虽然这些拼写错误对 AI 研究人员来说并非最紧迫的问题,因为 LLM 的主要用途不在于拼写检查,但它们对普通用户却是一个重要的提醒。

这些显而易见的失败有助于我们记住,AI 并不完美,即使它有时看起来无所不知。我们不能盲目信任 AI 的输出,而需要自己检查其准确性。

这些错误让我们清楚地看到,尽管 AI 能在几秒钟内编写代码或解决复杂的数学难题,但在某些方面,它的能力可能还不如一个刚上学的孩子。这提醒我们,在与 AI 互动时,保持批判性思维至关重要。