挪威的 2 PB 华为闪存存储与 LLM 训练

挪威国家图书馆正在利用其庞大的数字化馆藏，建立一个能理解挪威语言、历史和文化的主权大语言模型（LLM）。该项目使用 2 PB 的华为 OceanStor Dorado 闪存存储来处理数据管道，其核心挑战并非计算能力不足，而是如何解决数据质量、管道吞吐量、治理和多系统协同等复杂问题。这反映了非英语国家在构建能代表自身文化的 AI 时将普遍面临的难题。

为何需要主权的语言模型

全球主流的大语言模型主要以英语为基础进行训练，无法充分理解特定国家的历史、新闻和文化。对于挪威来说，这意味着依赖这些模型会使其处于不利地位。

因此，挪威文化部委托国家图书馆承担建立主权 AI 的任务，以确保 AI 能够真正反映挪威的语言和文化遗产。

任何拥有自己语言但没有相应主权 LLM 的国家都处于劣势。

国家图书馆的独特资源

挪威国家图书馆是执行此任务的理想机构，因为它拥有该国最庞大的本土数字馆藏，这得益于其独特的优势：

法定送存制度： 法律规定，所有在挪威出版的书籍和广播内容都必须向图书馆缴送副本。这项任务甚至扩展到收集和保存挪威所有的文化遗产。
版权内容授权： 图书馆与挪威报纸达成协议，允许其在 LLM 训练中使用受版权保护的内容。Marius Husnes（图书馆 IT 平台负责人）强调：“没有私营公司拥有这种条件。”
庞大的数字化档案： 自 2005 年以来，图书馆一直在进行数字化工作，积累了 20 PB 的独立数据。这些数据以 3-2-1 备份形式存储（3 个副本，2 种介质，1 个异地），总存储量约 60 PB。

从保存到训练的技术流程

项目的瓶颈不是计算能力，而是数据质量、数据清理和管道吞吐量。整个流程分为两个主要阶段。

第一阶段：内部数据准备

此阶段在图书馆内部进行，目标是为训练准备高质量的数据。

核心存储： 使用总计 2 PB 的华为 OceanStor Dorado 全闪存阵列，为数据管道和训练准备提供低延迟、高吞吐量的存储支持。
处理步骤： 数据经过一系列处理，包括数据摄取、清理、去重、格式规范化、验证和准备。
计算设备： 使用 Nvidia DGX H200 系统和 384 核 CPU 集群进行计算。

第二阶段：在国家超算上训练

经过内部管道处理后的数据，被发送到挪威的国家超级计算机 Sigma2 Olivia 系统进行实际的 LLM 训练。

面临的主要挑战

项目团队发现，将 PB 级数据集从一个系统迁移到另一个系统并进行处理，存在许多未被充分讨论的难题。

存储系统冲突： 60 PB 的保存系统为耐久性和成本而优化，读取延迟高；而 AI 管道存储则需要高吞吐、低延迟和并行数据 IO。在这两种特性截然不同的系统之间移动数据是一个巨大挑战。
评估工具缺失： 挪威语有两种书面形式和多种方言，且语言在不断变化。目前没有标准的评估工具来衡量挪威语 LLM 的表现，团队必须在实践中自行构建。
治理问题： 谁来控制主权 LLM 的访问权限？谁来决定它的用途？这些都是没有简单答案的制度和政治问题。
系统协同： 让保存档案、本地 AI 环境和国家超级计算机这三个系统顺畅地协同工作，是一项持续进行的工程。

挪威是一个小国，但它正在解决每个非英语国家都将面临的问题：如何构建一个能反映你的语言、你的文化和你的历史的 AI？AI 需要监护人，而不仅仅是建造者。