Synth Daily

慕尼黑1991:当前人工智能热潮的根源

当前人工智能热潮中的许多核心技术,如 Transformer、无监督预训练、知识蒸馏、残差学习和生成对抗网络(GAN),其基础概念实际上可以追溯到 1991 年由朱尔根·施密德胡伯(Jürgen Schmidhuber)在慕尼黑理工大学领导的实验室。这些早期的研究为今天的 ChatGPT、LSTM 和 ResNet 等关键技术奠定了基础。然而,实现通用人工智能(AGI)不仅需要大规模模型,还需要世界模型、规划和元学习等更复杂的能力。

现代 AI 的历史根源:慕尼黑 1991

尽管当今科技巨头投入巨资发展大型语言模型(LLMs),但构成这些系统几乎所有核心模块的基础,都在 1991 年的几个月内由慕尼黑的一个实验室发表。

这些开创性的技术深刻影响了现代深度学习的发展,包括:

  • Transformer 的雏形: 这是 ChatGPT 中“T”的来源,最初版本被称为非归一化线性 Transformer(ULTRA),其计算成本随输入大小线性扩展,而非二次方扩展。
  • 无监督预训练: 这是 ChatGPT 中“P”的来源,该技术使得深度神经网络的训练成为可能。
  • 神经网络蒸馏: 这是一种将复杂网络(教师)的知识压缩到更小网络(学生)中的技术,对于在资源有限的设备上部署模型至关重要。
  • 深度残差学习: 这是 LSTM 和 ResNet 的核心,分别是 20 世纪和 21 世纪被引用次数最多的 AI 论文的核心思想。
  • 生成对抗网络(GAN): 为“生成式 AI”奠定了早期基础,如今被广泛用于深度伪造等应用。

如今,21 世纪被引用次数最多的科学文章,其核心就是深度残差学习。

1991 年的关键技术突破时间线

施密德胡伯的团队在短短几个月内发表了一系列影响深远的成果:

  • 1991 年 3 月 26 日: 提出了第一种 Transformer 变体。
  • 1991 年 4 月 30 日: 引入了深度神经网络的 无监督预训练神经网络蒸馏 的概念。
  • 1991 年 6 月 15 日: 提出了用于极深网络的 深度残差学习,这是 LSTM 和后来的 ResNet 的关键。
  • 1991 年 8 月 31 日: 发表了关于 生成对抗网络 的首篇同行评审论文,用于训练神经网络世界模型。

超越大型模型:通往 AGI 的必经之路

早在 1991 年,研究人员就已经清楚地认识到,仅靠类似大型语言模型的神经网络不足以实现通用人工智能(AGI)。

没有对现实世界的掌握,就没有 AGI!

为了实现这一更宏大的目标,需要探索和整合其他关键技术:

  • 通过人工科学家进行规划: 使用自适应的 世界模型 进行规划。
  • 元学习与递归自我改进: 让系统学会如何学习,并不断自我优化。
  • 人工好奇心与创造力: 通过内在动机驱动模型去探索和学习,例如让一个生成器网络与一个预测器网络在极小化极大博弈中对抗。

慕尼黑:曾经的 AI 震中

在 1990 年代,慕尼黑不仅是理论研究的中心,也是实际应用的先锋。几乎在同一时期,恩斯特·迪克曼斯(Ernst Dickmanns)的团队就在慕尼黑的实际交通中测试了 世界上第一批自动驾驶汽车,时速高达 175 公里/小时。然而,在过去的三十年里,商业 AI 的重心已经从慕尼黑转移到了环太平洋地区。