复古大模型

“复古大型语言模型”（Vintage LLM）是指那些仅使用特定历史节点之前的数据进行训练的语言模型。其核心目标是模拟过去时代的知识体系和语言环境，从而在科学预测、历史研究和人文探索等领域发挥作用。尽管面临着数据量、未来信息泄露和高昂成本等挑战，但通过合成数据、分叉训练等方法可以部分克服这些困难。这类模型不仅有助于我们理解知识的演进，也为人工智能在科学创新领域提供了全新的测试平台。

什么是复古大模型？

一个复古大型语言模型（Vintage LLM） 是指其训练数据（包括文本、图像等多模态信息）的截止日期被设定在过去某个特定时间点的模型。这个日期可以是近期的2019年，也可以是更具挑战性的1900年，甚至是公元200年。

实现这一目标面临两大核心挑战：

数据充足性： 越是久远的时代，可用的数字化训练数据就越稀少。
信息污染： 必须确保训练数据中不包含截止日期之后的任何信息。例如，一个1900年的模型，其训练数据不能泄露任何20世纪的知识，即使是元数据中的微小痕迹也需要被清理。

尽管完全杜绝信息泄露几乎不可能——因为我们保存什么本身就反映了未来的关注点——但将泄露水平降至极低是可行的，足以让这项研究变得有意义。

对于非常古老的时代（如罗马时期），虽然当时没有数字图像，但模型依然可以包含某些图像数据。例如，可以包含当时人们能亲眼所见事物的现代高清图像（如蜜蜂或破壳的鸡蛋），或是当时建筑与文物的照片，前提是这些图像不泄露当时无法获知的知识。

科学与认知动机

复古大模型的一个重要价值在于科学和认知领域，它为测试AI的预测与发明能力提供了一个理想的“沙盒”。

检验预测能力： 我们可以通过“回测”来评估AI的预测能力。例如，使用一个仅基于2019年及以前数据训练的 LLM-2019 模型，观察它能否在新冠疫情爆发初期，根据零散的证据预测后续发展。

第一个年头的疫情对于测试预测能力来说极其有趣，因为当时人类预测者也常常犯错，在一个全新的情境下预测未来六个月的发展非常困难。
模拟科学发明： 我们可以让一个复古模型尝试“重新发明”那些在它的知识截止日期之后才出现的重大理念。
- 让一个训练到1989年的模型去探索 万维网、量子计算或区块链 的概念。
- 让一个训练到1600年的模型（在牛顿定律和进化论之前）去尝试发现这些基础科学理论。这虽然比近几十年的发明在概念上更简单，但基于当时的知识局限，难度可能极大。

人文主义动机

复古大模型同样能带来深刻的人文洞见，让我们以全新的方式与历史互动。

实现“时间旅行”： 你可以与一个模拟的1700年代的人进行互动式对话，体验他们的语言、思维方式和知识边界。这提供了一种比电影或小说更具沉浸感的历史证据来源。
探索知识的融合与隔阂： 在历史上，不同文明的知识交流存在壁垒。一个复古模型可以被训练来回答一些反事实的问题：
- 如果将公元1500年时中国和西方的知识文本 以一种不符合时代的方式 结合起来训练一个模型，它会比只学习西方文本的模型拥有什么优势？
- 这使得我们可以探索不同知识流派提前融合可能产生的思想史。
评估创意的原创性： 我们可以衡量某个历史性的思想或作品（如爱因斯坦的相对论）在当时是多么的 “出人意料”。通过向一个对应时代的复古模型提供一些线索，观察它能否自行推导出相似的结论，或评估它对这些新思想的“惊讶程度”。

认知AI与黄金标准

认知AI（Epistemic AI） 旨在利用AI系统帮助人类建立更准确、更可靠的世界模型，具体应用包括科学预测、文献综述和辅助发明。要训练出色的认知AI，我们需要高质量的“黄金标准”范例。历史数据正是这种范例的关键来源之一，它为训练模型提供了真实世界中已经被验证的知识和推理过程。

打造复古大模型的挑战

数据需求： 训练一个顶尖模型可能需要数十万亿词汇量的文本。要从历史中收集如此庞大且纯净（无未来信息污染）的数据集是一项艰巨的任务。
训练成本： 训练一个SOTA模型的成本可能高达2亿美元以上，这对任何单一的研究项目都是一笔巨额投资。

应对挑战的方案

尽管挑战巨大，但仍有可行的解决方案。

善用高质量数据： 对于科学预测等任务，最重要的并非海量社交媒体对话，而是高质量的知识文本，如科学论文、百科全书和关键统计数据。幸运的是，对于上世纪的大部分时间，这类核心数据我们已经拥有很多。
利用合成数据： 当真实历史数据不足时，我们可以用一个更强大的现代模型来生成 合成数据。具体方法是，让现代模型对一份真实的历史文献进行改写、重组或扩充，生成内容一致但表述多样的训练材料。

为避免信息污染，可以采用一种“自举”（bootstrapping）方法：先用少量纯净的1900年数据训练一个较弱的1900年模型，再用这个弱模型去生成更多的合成数据，用于训练一个更强的1900年模型。
采用时间分叉训练： 为了节约成本，可以采用 “按时间顺序分叉训练” 的策略。例如，先将模型训练至2021年，然后将这个模型状态“分叉”：一个分支继续在2021年的数据上训练，另一个分支则开始学习2022-2024年的新数据。这避免了从零开始为每个年份训练一个全新模型。

更进一步的构想

功能外包： 复古模型可以将某些复杂的推理或计算任务 “外包” 给一个现代LLM来完成，同时通过严格的接口设计防止现代知识泄露回古董模型。
分区LLM： 训练一个包含所有时代数据（直到2024年）的单一模型，但为每一份文档都打上清晰的日期标签。这样，用户就可以通过提示词，要求模型 “扮演” 某个特定时代的角色，并基于那个时代的知识进行回应。这虽然不是一个真正的复古模型，但可以作为一种有益的补充。