人工智能的发展并非始于21世纪,而是源自长达三千年的人类信息管理史。从古代的泥板书库到现代的大型语言模型,其核心驱动力始终是应对日益增长的数据量。通过将知识转化为可重复的、系统化的程序,人类不断地将认知负担外包给外部系统。最终,这些程序被自动化, culminando en la IA moderna, que no es una ruptura histórica, sino la continuación lógica de un antiguo esfuerzo por organizar el conocimiento.
拥有“心智”的图书馆
公元前58年,罗马政治家西塞罗的图书馆被洗劫一空。卷轴散乱不堪,整个书库陷入混乱。图书管理员泰拉尼奥通过修复、整理卷轴并制作标题标签,恢复了图书馆的秩序。西塞罗对此惊叹不已,他写道:
自从泰拉尼奥整理了我的书,这所房子似乎拥有了心智(mens)。
这里的关键在于,西塞罗并未说图书馆获得了“灵魂”,而是“心智”或“智能”。这种智能并非来自泰拉尼奥本人,而是他施加于图书馆的 组织结构。一个有序的图书馆可以揭示联系、回答问题并扩展人类的思维,它本身就拥有一种独立于任何人的、可操作的人工智能。
最早的搜索引擎
信息量的增加催生了系统化的组织方式,这一模式在历史上反复出现。
赫梯帝国(3300年前): 统治者保存了约7000块泥板,并为其建立了目录和元数据(如标题、内容描述、类型分类),以便在决策时快速检索特定条约或文件。
亚述帝国(2700年前): 亚述巴尼拔国王的图书馆藏有约30000块泥板。档案管理员不仅使用标签和分类系统,还使用可擦写的蜡板作为动态数据库来记录新藏品。
亚历山大图书馆: 为了管理数十万卷纸莎草纸,图书管理员采用了更复杂的元数据,包括标题标签、类型分类,并创建了一部包含120卷的、按字母顺序排列的巨大目录。
这些跨越数个世纪和不同文化的解决方案惊人地相似,因为它们面对的是同一个恒久的问题:积累的信息需要一种可访问的组织和内在逻辑。一旦这种逻辑被建立,知识的检索和关联就变成了任何人都可以学习和重复的程序化操作。
印刷术带来的挑战升级
15世纪中叶,印刷术的到来引发了信息爆炸,进一步加剧了对信息组织的需求。在印刷机出现前的900年里,欧洲抄写员大约生产了1100万本书;而在之后的150年里,印刷机产出了超过2亿本。
学者们用旧方法应对新挑战:
- 罗伯特·格罗西特(13世纪): 设计了一个庞大的表格索引,将他在古典文本中读到的所有主题进行分类,如同“羊皮纸上的谷歌”。
- 埃尔南多·科隆(16世纪): 为他超过15000册的藏书创建了一个模拟的超链接网络。他的《摘要之书》提供了书籍的浓缩版本和元数据,而《主题之书》则允许研究者跨越作者和类型的界限,追踪一个主题在不同书籍中的线索。
这些努力的共同点是,它们都试图通过建立更强大的程序来跟上信息增长的速度。
将知识“原子化”
到了19世纪末,知识的工业化生产使信息过载问题更加严重。比利时人保罗·奥特莱特提出了一个革命性的想法:将书籍分解成最小的信息单元。
理想的做法是,剥离每篇文章或章节的华丽语言或重复内容,将所有新增的知识点分别收集在卡片上。
奥特莱特将信息分解为事实、解释、统计和来源,然后将它们记录在索引卡上。他摆脱了传统图书馆的线性分类法,用多个标签标记同一个事实,使信息分类可以横向和纵向进行。在1900年巴黎博览会上,他和伙伴展示了超过300万张索引卡的系统,最终目标是建立一个包含所有时代、所有语言、所有主题知识的“清单”。
奥特莱特的愿景未能完全实现,但他指明了下一步的方向:信息不仅需要组织,还需要 跨维度的即时检索。
思考的机器
20世纪,工程师范内瓦·布什进一步推动了这一理念。他担忧研究成果会迷失在海量的信息中,并构想了一台名为 Memex 的模拟个人计算机。
我们正陷入困境。研究成果堆积如山,研究人员被成千上万同行的发现和结论所轰炸,他们根本没有时间去掌握。
Memex 的设想包括:
- 使用缩微胶卷存储数据,通过键盘和屏幕进行快速搜索。
- 创建名为 “关联轨迹” 的链接,将不同主题、不同类型的文档(文本、图像、音频)灵活地联系起来,这正是今天互联网超链接的前身。
- 机器不仅存储信息,还能承担部分认知负担,如观察用户偏好、自主创建研究简报。
布什将知识的程序化推向了 自动化。他认为,既然智力工作可以被形式化为程序,那么机器就可以像人类一样执行这些程序。
从“辅助认知”到人工智能
J.C.R. 利克莱德在20世纪60年代进一步深化了布什的愿景,提出了“人机共生”的概念。他认为,大约85%的智力工作(如搜索数据、计算、综合信息)都是为更深层次的创造性工作做准备。
利克莱德设想了“辅助认知系统”,这种系统可以:
- 像奥特莱特一样,将书籍分解为离散的信息块。
- 由计算机消化数据,并执行预定义的程序(搜索、关联、转换)。
- 用户只需下达指令,观察结果,然后决定下一步操作,这与今天人们与ChatGPT等大型语言模型的交互方式非常相似。
利克莱德的工作直接促成了ARPANET(互联网的前身)的诞生。万维网的发明者蒂姆·伯纳斯-李也曾预言,当网络变得足够庞大时,将需要 “自动分析”,也就是人工智能,来维持其可导航性。
三千年的成果
我们并非在21世纪才发明人工智能,而是建设了它三千年。从古代图书馆到现代AI,其发展轨迹具有明显的路径依赖性。
- 增长驱动: 数据量的增长创造了压力。
- 程序化: 人类通过发现信息内在的逻辑,并将其编纂成可执行的程序来应对。
- 自动化: 一旦操作被形式化为程序,自动化就成为可能。
今天的大型语言模型与古代图书馆的核心逻辑是相同的:智能源于信息的系统化排列。区别在于,过去由人类执行的搜索、关联和重组等操作,现在可以由机器以极高的速度自动完成。我们并没有创造一种新的意识,只是训练了那些古老的程序,让它们自己运行起来。