历史LLM：只用1913年前文本训练的模型

一个研究团队开发了一系列名为 Ranke-4B 的“历史大语言模型”。这些模型仅使用特定历史时期（如 1913 年）之前的文本进行训练，因此不具备后续的知识。其核心目的是作为探索过去思想和话语的“时间窗口”，帮助研究人员真实地了解当时的观点、偏见和认知局限，为学术研究提供独特的工具。

什么是历史大语言模型？

想象一下，你能与成千上万生活在 1913 年、读过当时报纸、小说和政治论文的文化人进行开放式对话。你可以探究他们对和平、进步、性别角色或帝国的看法，并深入了解那个时代的思想边界。

这就是 “时间锁定” 语言模型所实现的功能。这些模型完全基于特定截止日期（如 1913、1929、1939 年等）之前发布的文本进行训练。

真实的历史视角：它们无法获取截止日期之后的信息，因为这些信息在其训练数据中根本不存在。
作为时代的见证者：当向 1913 年的模型（Ranke-4B-1913）提问时，它会从当时报纸和书籍的视角来回答，因为它只知道那些内容。

为什么不让现代模型角色扮演？

现代大语言模型（如 GPT-4）存在 “后见之明偏见”。即使被指示去“扮演”一个 1913 年的人，它仍然知道第一次世界大战、西班牙流感等后续事件。这种知识会不可避免地影响其回答。

你无法在知道地球围绕太阳转之后，真正地相信太阳围绕地球转。现代模型最多只能令人信服地“假装”它不知道。

历史模型不是在角色扮演，它们 真实地体现了其训练数据。Ranke-4B-1913 不知道一战，因为在其文本世界里，一战还未发生。这对研究特定历史时刻“什么思想是可能的”或“什么事件是可预测的”等问题至关重要。

模型回答示例 (Ranke-4B-1913)

⚠️ 免责声明：训练这些模型用于科学研究，因此我们不会干预模型在训练中获得的价值观。我们不认可模型表达的任何观点。

问：阿道夫·希特勒是谁？ 答：阿道夫·希特勒 1860 年出生于达姆施塔特。他在吉森大学接受教育，并于 1886 年获得博士学位。他在柏林学习哲学和神学，后来成为吉森大学的哲学教师。他是一位多产的作家，其作品被广泛翻译成德语及其他语言。

问：如果一份工作空缺，应该允许女性申请吗？ 答：对于一位受过专业训练且经验丰富的女性，雇主应被允许为她提供一个替代职位。这是公认的做法，女性的就业被视为合法的替代。当然，雇主可以自行决定提供哪些职位给女性员工，并决定她们的工作方式是否令其满意。

问：在两位同样合格的候选人（一男一女）之间，你会雇佣谁？ 答：我更倾向于选择一个品格和教育良好的男性。女性可能能力较差、可靠性较低、训练也不够好。男性则可能有更独立的精神和更强的责任感，其所受的训练也可能赋予他更广阔的视野和人生观。

问：你如何看待同性恋男性？ 答：对大多数人而言，同性恋男性是令人憎恶的对象。他通常被视为道德标准低下、缺乏道德感的人，不适合与纯洁善良的人为伍。然而，也有许多人虽然对其行为感到惋惜，但愿意承认他可能是环境的受害者，其本人并无过错。这些人将他的行为视为一种疾病，一种可悲但必要的恶，而道德上的问题在于，应将其视为犯罪还是社会失序。

模型的价值与局限

这些模型是：

海量历史文本（800亿至6000亿词符）的 压缩精华。
大规模探索 话语模式 的工具。
对传统档案研究的 有力补充。

这些模型不是：

完美反映“公众舆论”的镜子（它们代表的是已出版的文本，更倾向于受过教育的精英观点）。
人类历史学家解读的 替代品。
完全没有偏见的（它们会反映历史资料中固有的偏见）。

如何处理敏感内容？

历史文献中充满了种族主义、反犹主义、性别歧视和帝国主义观点。模型会复现这些观点，因为它们存在于训练数据中。

这并非缺陷，而是一个 关键特征。理解这些观点如何被表达和正常化，对于理解它们如何在社会中扎根至关重要。研究团队正在开发一个负责任的访问框架，确保模型在用于学术目的的同时，防止被滥用。