“复古大型语言模型”(Vintage LLM)是指那些仅使用特定历史节点之前的数据进行训练的语言模型。其核心目标是模拟过去时代的知识体系和语言环境,从而在科学预测、历史研究和人文探索等领域发挥作用。尽管面临着数据量、未来信息泄露和高昂成本等挑战,但通过合成数据、分叉训练等方法可以部分克服这些困难。这类模型不仅有助于我们理解知识的演进,也为人工智能在科学创新领域提供了全新的测试平台。
什么是复古大模型?
一个复古大型语言模型(Vintage LLM) 是指其训练数据(包括文本、图像等多模态信息)的截止日期被设定在过去某个特定时间点的模型。这个日期可以是近期的2019年,也可以是更具挑战性的1900年,甚至是公元200年。
实现这一目标面临两大核心挑战:
- 数据充足性: 越是久远的时代,可用的数字化训练数据就越稀少。
- 信息污染: 必须确保训练数据中不包含截止日期之后的任何信息。例如,一个1900年的模型,其训练数据不能泄露任何20世纪的知识,即使是元数据中的微小痕迹也需要被清理。
尽管完全杜绝信息泄露几乎不可能——因为我们保存什么本身就反映了未来的关注点——但将泄露水平降至极低是可行的,足以让这项研究变得有意义。
对于非常古老的时代(如罗马时期),虽然当时没有数字图像,但模型依然可以包含某些图像数据。例如,可以包含当时人们能亲眼所见事物的现代高清图像(如蜜蜂或破壳的鸡蛋),或是当时建筑与文物的照片,前提是这些图像不泄露当时无法获知的知识。
科学与认知动机
复古大模型的一个重要价值在于科学和认知领域,它为测试AI的预测与发明能力提供了一个理想的“沙盒”。
检验预测能力: 我们可以通过“回测”来评估AI的预测能力。例如,使用一个仅基于2019年及以前数据训练的 LLM-2019 模型,观察它能否在新冠疫情爆发初期,根据零散的证据预测后续发展。
第一个年头的疫情对于测试预测能力来说极其有趣,因为当时人类预测者也常常犯错,在一个全新的情境下预测未来六个月的发展非常困难。
模拟科学发明: 我们可以让一个复古模型尝试“重新发明”那些在它的知识截止日期之后才出现的重大理念。
- 让一个训练到1989年的模型去探索 万维网、量子计算或区块链 的概念。
- 让一个训练到1600年的模型(在牛顿定律和进化论之前)去尝试发现这些基础科学理论。这虽然比近几十年的发明在概念上更简单,但基于当时的知识局限,难度可能极大。
人文主义动机
复古大模型同样能带来深刻的人文洞见,让我们以全新的方式与历史互动。
实现“时间旅行”: 你可以与一个模拟的1700年代的人进行互动式对话,体验他们的语言、思维方式和知识边界。这提供了一种比电影或小说更具沉浸感的历史证据来源。
探索知识的融合与隔阂: 在历史上,不同文明的知识交流存在壁垒。一个复古模型可以被训练来回答一些反事实的问题:
- 如果将公元1500年时中国和西方的知识文本 以一种不符合时代的方式 结合起来训练一个模型,它会比只学习西方文本的模型拥有什么优势?
- 这使得我们可以探索不同知识流派提前融合可能产生的思想史。
评估创意的原创性: 我们可以衡量某个历史性的思想或作品(如爱因斯坦的相对论)在当时是多么的 “出人意料”。通过向一个对应时代的复古模型提供一些线索,观察它能否自行推导出相似的结论,或评估它对这些新思想的“惊讶程度”。
认知AI与黄金标准
认知AI(Epistemic AI) 旨在利用AI系统帮助人类建立更准确、更可靠的世界模型,具体应用包括科学预测、文献综述和辅助发明。要训练出色的认知AI,我们需要高质量的“黄金标准”范例。历史数据正是这种范例的关键来源之一,它为训练模型提供了真实世界中已经被验证的知识和推理过程。
打造复古大模型的挑战
- 数据需求: 训练一个顶尖模型可能需要数十万亿词汇量的文本。要从历史中收集如此庞大且纯净(无未来信息污染)的数据集是一项艰巨的任务。
- 训练成本: 训练一个SOTA模型的成本可能高达2亿美元以上,这对任何单一的研究项目都是一笔巨额投资。
应对挑战的方案
尽管挑战巨大,但仍有可行的解决方案。
善用高质量数据: 对于科学预测等任务,最重要的并非海量社交媒体对话,而是高质量的知识文本,如科学论文、百科全书和关键统计数据。幸运的是,对于上世纪的大部分时间,这类核心数据我们已经拥有很多。
利用合成数据: 当真实历史数据不足时,我们可以用一个更强大的现代模型来生成 合成数据。具体方法是,让现代模型对一份真实的历史文献进行改写、重组或扩充,生成内容一致但表述多样的训练材料。
为避免信息污染,可以采用一种“自举”(bootstrapping)方法:先用少量纯净的1900年数据训练一个较弱的1900年模型,再用这个弱模型去生成更多的合成数据,用于训练一个更强的1900年模型。
采用时间分叉训练: 为了节约成本,可以采用 “按时间顺序分叉训练” 的策略。例如,先将模型训练至2021年,然后将这个模型状态“分叉”:一个分支继续在2021年的数据上训练,另一个分支则开始学习2022-2024年的新数据。这避免了从零开始为每个年份训练一个全新模型。
更进一步的构想
功能外包: 复古模型可以将某些复杂的推理或计算任务 “外包” 给一个现代LLM来完成,同时通过严格的接口设计防止现代知识泄露回古董模型。
分区LLM: 训练一个包含所有时代数据(直到2024年)的单一模型,但为每一份文档都打上清晰的日期标签。这样,用户就可以通过提示词,要求模型 “扮演” 某个特定时代的角色,并基于那个时代的知识进行回应。这虽然不是一个真正的复古模型,但可以作为一种有益的补充。