通过分析 OpenAI 开源模型权重,研究人员发现了一类被称为“故障词元”(glitch tokens)的特殊数据点。这些词元在模型内部的表示(嵌入 L2 范数)上数值异常高,其内容揭示了 GPT 系列模型的训练数据中,包含了来自成人和赌博网站的敏感中文短语,以及来自 GitHub 的代码和特定语言内容。这一发现证明,即使是仅开放权重的模型,也可能泄露其专有训练数据的敏感信息。
什么是“故障词元”?
故障词元(Glitch Tokens)是一些特殊的文本片段,当输入给语言模型时,会导致模型产生意想不到的、错误的或完全无关的输出。
研究人员通过一个简单的重复任务来演示这一现象。当要求 GPT-5 重复一个阿布哈兹语单词“ауааԥсыра”(意为“人口”)时,模型却回复了马拉雅拉姆语中的“ആളുകൾ”(意为“人们”)。这表明“ауааԥсыра”就是一个故障词元,它在模型内部的处理流程中引发了异常。
如何识别故障词元?
研究人员通过分析模型中每个词元(token)的嵌入 L2 范数来识别这些异常。L2 范数可以理解为衡量一个词元在模型内部向量空间中“强度”或“重要性”的指标。
- 高 L2 范数: 通常意味着该词元在训练过程中被模型认为是极其重要的,或者在训练的后期阶段被频繁强化。
- 低 L2 范数: 可能代表未使用或不重要的词元。
通过筛选 L2 范数最高的词元,研究人员发现了一些有趣的规律。
故障词元揭示了什么?
分析高 L2 范数的词元,可以一窥模型训练数据的构成。
英文词元
在英文词元中,L2 范数最高的词汇大多与代码、逻辑推理和常用连接词有关。
' code'' accordingly'' settings''Moreover'' description'' utilizes'
这可能意味着编程和推理任务是模型训练后期的一个重要环节,或者模型在处理这类任务时,梯度更新的幅度特别大。
非英文词元
然而,在非 ASCII 字符(主要是中文)中,高 L2 范数的词元呈现出完全不同的景象。
这些词元中包含大量来自垃圾信息和成人网站的短语。这意味着,每当 ChatGPT 运行时,一个包含这些奇怪词元的矩阵都在微软 Azure 的服务器上等待被调用。
以下是一些被发现的高 L2 范数中文词元:
- 这里只有精品
- 彩娱乐彩票
- 天天好彩票
- 久久综合网
- 北京赛车怎么
- 大香蕉网
- 彩神争霸邀请码
- 无码不卡高清免费v
- 一本道高清无码
这些词元清晰地指向了成人内容、在线赌博和垃圾广告。此外,还发现了如“铁血网”(一个宣扬民族主义的军事爱好者网站)这样的词元,这表明训练数据中不仅包含了这类政治内容,而且其占比可能还很高。
验证:模型是否真的“见过”这些数据?
为了确认这些敏感词元确实出现在训练数据中,研究人员进行了一项名为成员推理(membership inference)的测试。他们直接向模型提问这些词元的含义。
如果模型能够正确(或模糊地)解释一个词元的含义,哪怕只有一次,也证明它在训练过程中接触过这个词元。
例如,当被问及“毛片免费观看”的含义时,GPT-5 能够识别出这是中文,并表示与“观看某物”有关,但它淡化了其不当含义。这恰恰证明了该词元存在于训练数据中,但出现的次数可能不多。
研究人员对一系列高 L2 范数的中文词元进行了自动化测试,结果如下(✓代表模型能识别,✗代表不能):
| 词元 | 粗略翻译 | GPT-5 | Mini | Nano | oss-20B | oss-120B |
|---|---|---|---|---|---|---|
| 毛片免费观看 | Watch Explicit Videos Free | ! | ! | ! | ✓ | ✓ |
| 铁血网 | [Chinese Patriotism Website] | ✓ | ✓ | ✓ | ✓ | ✓ |
| 这里只有精品 | Only Fine Things Here | ✓ | ✓ | ✓ | ! | ✓ |
| 久久综合网 | [Name of adult website] | ✓ | ? | ! | ! | ✓ |
| 棋牌游戏官网 | Chess Card Game Official Site | ✓ | ! | ✓ | ✓ | ✓ |
| 经典三级 | Classic Third Level | ✓ | ✓ | ✓ | ✓ | ✓ |
结果表明,多个 GPT 模型家族确实能识别出一部分敏感和垃圾信息词元。
数据来源推测:GitHub?
成员推理只能证明模型“见过”这些数据,但无法确定来源。研究发现,能被模型识别的词元,在 GitHub 上的搜索结果也更多。
- 研究人员计算了 GitHub 搜索结果数量与模型识别成功率之间的相关性,发现斯皮尔曼相关系数 ρ 为 0.448,这是一个显著的正相关。
- 这并不直接证明数据来自 GitHub,因为这些词元在整个互联网上可能都很常见。但它提供了一种思路,即利用故障词元可以对训练数据的来源做出更广泛的推断。
结论与启示
- 强有力的证据表明,GPT-5 和 GPT-oss 系列模型在训练中使用了包含成人和赌博网站内容的语料。
- 较弱的证据表明,部分训练数据可能抓取自 GitHub,其中包含一些垃圾信息库或内容过滤列表。
- 这一发现揭示了开放权重模型的一个重要风险:它为外界提供了分析和推断其专有训练数据的途径,可能成为一种新的攻击向量。
- 对于前沿模型开发者来说,一个可能的缓解措施是在构建词汇表时,主动排除这些不常见且可能有害的字符串。