慕尼黑1991：当前人工智能热潮的根源

当前人工智能热潮中的许多核心技术，如 Transformer、无监督预训练、知识蒸馏、残差学习和生成对抗网络（GAN），其基础概念实际上可以追溯到 1991 年由朱尔根·施密德胡伯（Jürgen Schmidhuber）在慕尼黑理工大学领导的实验室。这些早期的研究为今天的 ChatGPT、LSTM 和 ResNet 等关键技术奠定了基础。然而，实现通用人工智能（AGI）不仅需要大规模模型，还需要世界模型、规划和元学习等更复杂的能力。

现代 AI 的历史根源：慕尼黑 1991

尽管当今科技巨头投入巨资发展大型语言模型（LLMs），但构成这些系统几乎所有核心模块的基础，都在 1991 年的几个月内由慕尼黑的一个实验室发表。

这些开创性的技术深刻影响了现代深度学习的发展，包括：

Transformer 的雏形： 这是 ChatGPT 中“T”的来源，最初版本被称为非归一化线性 Transformer（ULTRA），其计算成本随输入大小线性扩展，而非二次方扩展。
无监督预训练： 这是 ChatGPT 中“P”的来源，该技术使得深度神经网络的训练成为可能。
神经网络蒸馏： 这是一种将复杂网络（教师）的知识压缩到更小网络（学生）中的技术，对于在资源有限的设备上部署模型至关重要。
深度残差学习： 这是 LSTM 和 ResNet 的核心，分别是 20 世纪和 21 世纪被引用次数最多的 AI 论文的核心思想。
生成对抗网络（GAN）： 为“生成式 AI”奠定了早期基础，如今被广泛用于深度伪造等应用。

如今，21 世纪被引用次数最多的科学文章，其核心就是深度残差学习。

1991 年的关键技术突破时间线

施密德胡伯的团队在短短几个月内发表了一系列影响深远的成果：

1991 年 3 月 26 日： 提出了第一种 Transformer 变体。
1991 年 4 月 30 日： 引入了深度神经网络的 无监督预训练 和 神经网络蒸馏 的概念。
1991 年 6 月 15 日： 提出了用于极深网络的 深度残差学习，这是 LSTM 和后来的 ResNet 的关键。
1991 年 8 月 31 日： 发表了关于 生成对抗网络 的首篇同行评审论文，用于训练神经网络世界模型。

超越大型模型：通往 AGI 的必经之路

早在 1991 年，研究人员就已经清楚地认识到，仅靠类似大型语言模型的神经网络不足以实现通用人工智能（AGI）。

没有对现实世界的掌握，就没有 AGI！

为了实现这一更宏大的目标，需要探索和整合其他关键技术：

通过人工科学家进行规划： 使用自适应的 世界模型 进行规划。
元学习与递归自我改进： 让系统学会如何学习，并不断自我优化。
人工好奇心与创造力： 通过内在动机驱动模型去探索和学习，例如让一个生成器网络与一个预测器网络在极小化极大博弈中对抗。

慕尼黑：曾经的 AI 震中

在 1990 年代，慕尼黑不仅是理论研究的中心，也是实际应用的先锋。几乎在同一时期，恩斯特·迪克曼斯（Ernst Dickmanns）的团队就在慕尼黑的实际交通中测试了 世界上第一批自动驾驶汽车，时速高达 175 公里/小时。然而，在过去的三十年里，商业 AI 的重心已经从慕尼黑转移到了环太平洋地区。