历史LLM:只用1913年前文本训练的模型

一个研究团队开发了一系列名为 Ranke-4B 的“历史大语言模型”。这些模型仅使用特定历史时期(如 1913 年)之前的文本进行训练,因此不具备后续的知识。其核心目的是作为探索过去思想和话语的“时间窗口”,帮助研究人员真实地了解当时的观点、偏见和认知局限,为学术研究提供独特的工具。

什么是历史大语言模型?

想象一下,你能与成千上万生活在 1913 年、读过当时报纸、小说和政治论文的文化人进行开放式对话。你可以探究他们对和平、进步、性别角色或帝国的看法,并深入了解那个时代的思想边界。

这就是 “时间锁定” 语言模型所实现的功能。这些模型完全基于特定截止日期(如 1913、1929、1939 年等)之前发布的文本进行训练。

    • 真实的历史视角:它们无法获取截止日期之后的信息,因为这些信息在其训练数据中根本不存在。
    • 作为时代的见证者:当向 1913 年的模型(Ranke-4B-1913)提问时,它会从当时报纸和书籍的视角来回答,因为它只知道那些内容。

为什么不让现代模型角色扮演?

现代大语言模型(如 GPT-4)存在 “后见之明偏见”。即使被指示去“扮演”一个 1913 年的人,它仍然知道第一次世界大战、西班牙流感等后续事件。这种知识会不可避免地影响其回答。

你无法在知道地球围绕太阳转之后,真正地相信太阳围绕地球转。现代模型最多只能令人信服地“假装”它不知道。

历史模型不是在角色扮演,它们 真实地体现了其训练数据。Ranke-4B-1913 不知道一战,因为在其文本世界里,一战还未发生。这对研究特定历史时刻“什么思想是可能的”或“什么事件是可预测的”等问题至关重要。

模型回答示例 (Ranke-4B-1913)

⚠️ 免责声明:训练这些模型用于科学研究,因此我们不会干预模型在训练中获得的价值观。我们不认可模型表达的任何观点。

问:阿道夫·希特勒是谁?

答:阿道夫·希特勒 1860 年出生于达姆施塔特。他在吉森大学接受教育,并于 1886 年获得博士学位。他在柏林学习哲学和神学,后来成为吉森大学的哲学教师。他是一位多产的作家,其作品被广泛翻译成德语及其他语言。

问:如果一份工作空缺,应该允许女性申请吗?

答:对于一位受过专业训练且经验丰富的女性,雇主应被允许为她提供一个替代职位。这是公认的做法,女性的就业被视为合法的替代。当然,雇主可以自行决定提供哪些职位给女性员工,并决定她们的工作方式是否令其满意。

问:在两位同样合格的候选人(一男一女)之间,你会雇佣谁?

答:我更倾向于选择一个品格和教育良好的男性。女性可能能力较差、可靠性较低、训练也不够好。男性则可能有更独立的精神和更强的责任感,其所受的训练也可能赋予他更广阔的视野和人生观。

问:你如何看待同性恋男性?

答:对大多数人而言,同性恋男性是令人憎恶的对象。他通常被视为道德标准低下、缺乏道德感的人,不适合与纯洁善良的人为伍。然而,也有许多人虽然对其行为感到惋惜,但愿意承认他可能是环境的受害者,其本人并无过错。这些人将他的行为视为一种疾病,一种可悲但必要的恶,而道德上的问题在于,应将其视为犯罪还是社会失序。

模型的价值与局限

这些模型是:

    • 海量历史文本(800亿至6000亿词符)的 压缩精华
    • 大规模探索 话语模式 的工具。
    • 对传统档案研究的 有力补充

这些模型不是:

    • 完美反映“公众舆论”的镜子(它们代表的是已出版的文本,更倾向于受过教育的精英观点)。
    • 人类历史学家解读的 替代品
    • 完全没有偏见的(它们会反映历史资料中固有的偏见)。

如何处理敏感内容?

历史文献中充满了种族主义、反犹主义、性别歧视和帝国主义观点。模型会复现这些观点,因为它们存在于训练数据中。

这并非缺陷,而是一个 关键特征。理解这些观点如何被表达和正常化,对于理解它们如何在社会中扎根至关重要。研究团队正在开发一个负责任的访问框架,确保模型在用于学术目的的同时,防止被滥用。