一种名为 Titans 的新 AI 架构及其理论框架 MIRAS,提出了一种结合 RNN 模型速度与 Transformer 模型准确性的新方法。其核心是引入一个深度神经网络作为动态的长期记忆模块,使模型能在运行时实时学习和更新。通过一个“惊讶度”指标,模型能选择性地存储最重要的信息,有效解决了传统固定大小记忆难以处理超长数据序列的问题。实验证明,该方法在语言建模、零样本推理和超长上下文任务中均优于现有主流模型,为长上下文 AI 时代的发展开辟了新路径。
现有模型的局限性
- Transformer 模型: 其注意力机制彻底改变了序列建模,但随着序列长度的增加,计算成本急剧上升,这限制了它们在处理整个文档或基因组分析等超长上下文任务中的应用。
- RNN 与状态空间模型 (SSM): 像 Mamba-2 这样的模型通过将上下文压缩成一个固定大小的记忆来实现快速、线性的扩展。然而,这种压缩方式无法充分捕捉超长序列中的丰富信息。
新的解决方案:Titans 与 MIRAS
Titans 是一种具体的架构,而 MIRAS 是其背后的理论蓝图。它们共同推进了 “实时记忆” 的概念,即 AI 模型能够在运行时,根据输入的“惊讶度”(即意料之外的信息)来整合新知识,从而维持长期记忆,而无需专门的离线再训练。
这种架构不再是将信息压缩成一个静态的状态,而是在数据流入时主动学习和更新自己的参数。这个关键机制使模型能够立即将新的、具体的细节整合到其核心知识中。
Titans 的工作原理:一个动态的长期记忆模块
一个有效的学习系统需要不同但相互关联的记忆模块,就像人脑区分短期记忆和长期记忆一样。
- 短期记忆: 注意力机制非常适合处理精确的短期记忆。
- 长期记忆: Titans 引入了一个新颖的神经网络作为长期记忆模块。与传统 RNN 中的固定大小向量或矩阵不同,这个模块是一个深度神经网络,具有更高的表达能力,可以在不丢失重要上下文的情况下总结大量信息。
核心机制:“惊讶度”指标
Titans 并非被动地存储所有数据,而是主动识别和保留贯穿整个输入内容的重要关联和概念主题。这得益于其“惊讶度”指标,其工作原理类似于人类心理学:我们很容易忘记常规、预期内的事情,但会记住那些打破常规、出乎意料的事件。
- 低惊讶度: 如果模型记忆状态已经预期会出现一个关于动物的词,而新输入的词是“猫”,那么惊讶度就很低。模型可以安全地跳过在长期记忆中永久存储“猫”这个词。
- 高惊讶度: 如果模型的记忆状态正在总结一份严肃的财务报告,而新输入的是一张香蕉皮的图片,那么惊讶度就会非常高。这表明新输入是重要或异常的,必须优先存入长期记忆模块。
模型利用这个内部错误信号(梯度)来选择性地更新其长期记忆,只记录最新颖和打破上下文的信息,从而保持整个过程的快速和高效。
Titans 的两个关键元素
- 动量 (Momentum): 模型同时考虑“瞬时惊讶度”(当前输入)和“过去惊讶度”(最近的上下文流),确保相关但本身不令人惊讶的后续信息也能被捕获。
- 遗忘 (Weight Decay): 为了在处理极长序列时管理有限的记忆容量,Titans 采用了一种自适应的权重衰减机制。它就像一个遗忘门,让模型可以丢弃不再需要的信息。
MIRAS:一个统一的序列建模理论框架
MIRAS 框架认为,所有主流的序列模型,从现代 Transformer 到高速的线性 RNN,本质上都是一种复杂的联想记忆模块。它的独特之处在于,它不把它们看作不同的架构,而是看作解决同一个问题的不同方法:如何有效地将新信息与旧记忆结合,同时不遗忘核心概念。
MIRAS 通过四个关键设计选择来定义一个序列模型:
- 记忆架构: 存储信息的结构(例如,向量、矩阵,或像 Titans 中的深度神经网络)。
- 注意力偏差: 模型优先考虑什么。
- 保留门: 平衡新学习与保留旧知识的记忆调节器,即“遗忘机制”。
- 记忆算法: 用于更新记忆的优化算法。
通过这个框架,研究人员可以摆脱传统均方误差 (MSE) 的限制,探索更丰富的设计空间,并创造出如 YAAD(对异常值不敏感)、MONETA(探索更复杂的数学规则)和 MEMORA(专注于记忆稳定性)等新型号。
实验结果与性能表现
Titans 及其 MIRAS 变体与包括 Transformer++、Mamba-2 在内的领先架构进行了严格比较。
- 语言建模与效率: 在语言建模和常识推理任务中,Titans 架构的表现优于同等规模的先进模型,同时保持了高效的并行训练和快速的线性推理速度。
- 深度记忆的力量: 对比研究清楚地表明,记忆架构的深度至关重要。更深的记忆模块在语言建模中始终能实现更低的困惑度,并且随着序列长度的增加,性能保持得更好。
- 超长上下文回忆: 在 BABILong 基准测试中(一项要求在极长文档中进行推理的任务),Titans 的表现优于所有基准模型,包括参数量远大于它的 GPT-4。它进一步证明了其能有效扩展到超过 200 万个 token 的上下文窗口。
结论
Titans 架构和 MIRAS 框架标志着序列建模领域的一项重大进步。通过采用深度神经网络作为能够实时学习的记忆模块,这些方法克服了传统固定大小记忆的局限性。MIRAS 提供了一个强大的理论统一,为新一代序列模型打开了大门,这些模型将 RNN 的效率与长上下文 AI 时代所需的强大表达能力结合在一起。