大语言模型到底有多抗打？

大型语言模型（LLM）即使在数十亿个参数中有一个比特被意外翻转，通常也能正常运行，这揭示了人工神经网络与生物大脑在冗余设计上的惊人相似性。研究表明，由于训练过程中形成的重叠知识表示，LLM 具有极强的稳健性，即使成千上万的参数被故意损坏，它们仍能执行复杂任务。虽然并非所有参数都同等重要，但这种整体的冗余性提供了强大的保护，并催生了量化等实用技术。这种容错能力暗示，智能的本质可能在于创建稳健、可容错的世界表征，而非追求绝对的精确。

冗余的架构

传统程序或精密机械中，一个微小的零件损坏就可能导致整个系统崩溃。但神经网络的运作原理完全不同。一个大型语言模型包含数千亿甚至上万亿个参数，这些参数是人工神经元之间的连接，共同编码了关于语言、推理和模式的知识。

这些参数中的大多数并非不可替代的专家，它们更像一个庞大群体中的成员。

协同工作: 当模型处理任务时，是数十亿个参数在协同合作。
非单一依赖: 失去任何一个“个体”的声音，几乎不会影响整体的“对话”。知识并非存储在单一位置，而是分散在整个网络中。

惊人的稳健性

为了测试这些系统的坚固程度，研究人员进行了“数字破坏实验”，他们故意损坏训练好的模型中的随机参数，然后观察其性能变化。

结果与直觉相悖：即使在一个拥有数十亿参数的模型中破坏成千上万个参数，它仍然能够生成连贯的文本、正确回答问题。这种弹性并非偶然，它源于训练过程本身。神经网络在学习时，会为同一个概念发展出多种重叠的表示。例如，“猫”这个概念可能被编码在数千个不同的参数中，形成了多个备用路径。

并非所有参数都同等重要

然而，模型内部也存在重要性区域的划分，某些区域比其他区域更为关键。

输出层: 这是模型的“城市中心”。损坏这里的参数，模型可能知道正确答案，但无法清晰地表达出来，类似于人脑中损伤了语言表达区。
注意力机制: 这是模型的“交通枢纽”。损坏这里会使模型容易分心或忽略关键的上下文信息，难以遵循复杂指令。
早期层: 负责处理原始输入。这里的错误可能会像涟漪一样扩散到整个网络，但即便如此，冗余设计通常也能提供惊人的保护。

现实世界的启示与应用

这种理论上的稳健性在现实世界中每天都在上演。云服务商在运行模型时，偶尔会遇到硬件故障或宇宙射线导致的比特翻转，但在大多数情况下，模型会继续正常运行。

这一特性催生了一项重要的实用技术：量化（Quantization）。

量化通过故意降低参数的精度（例如，从 32 位压缩到 8 位）来节省存储空间和计算资源。这本质上是一种可控的损坏，但模型性能几乎不受影响。

弹性的极限与风险

当然，神经网络并非无懈可击。当损坏达到一定程度时，模型也会崩溃，通常表现为“模式崩溃”，即不断生成重复、无意义的文本。

更隐蔽的风险是 定向损坏。攻击者可以精确修改特定参数，制造出只在特定条件下才会灾难性失败的“后门”。这代表了人工智能部署中一个新兴的安全挑战。

这对理解智能意味着什么？

LLM 的弹性为我们理解智能的本质提供了线索。传统程序是脆弱的，而大脑和神经网络似乎都遵循 “优雅降级” 和冗余编码的原则。

与大脑的相似性: 人类大脑受伤时，影响通常是局部和特定的，而不是整个系统崩溃，这与我们在神经网络中观察到的现象非常相似。
泛化能力的基础: 当知识被编码在数百万个重叠的路径中时，系统就更容易建立新的联系，从而将现有理解创造性地应用于新任务。

这种容错能力表明，智能，无论是人工的还是生物的，其核心可能在于创建稳健、冗余的世界表征。在一个充满微小故障的现实世界中，保持思维连贯的能力或许不是一种奢侈，而是一种必需。