Synth Daily

挪威的 2 PB 华为闪存存储与 LLM 训练

挪威国家图书馆正在利用其庞大的数字化馆藏,建立一个能理解挪威语言、历史和文化的主权大语言模型(LLM)。该项目使用 2 PB 的华为 OceanStor Dorado 闪存存储来处理数据管道,其核心挑战并非计算能力不足,而是如何解决数据质量、管道吞吐量、治理和多系统协同等复杂问题。这反映了非英语国家在构建能代表自身文化的 AI 时将普遍面临的难题。

为何需要主权的语言模型

全球主流的大语言模型主要以英语为基础进行训练,无法充分理解特定国家的历史、新闻和文化。对于挪威来说,这意味着依赖这些模型会使其处于不利地位。

因此,挪威文化部委托国家图书馆承担建立主权 AI 的任务,以确保 AI 能够真正反映挪威的语言和文化遗产。

任何拥有自己语言但没有相应主权 LLM 的国家都处于劣势。

国家图书馆的独特资源

挪威国家图书馆是执行此任务的理想机构,因为它拥有该国最庞大的本土数字馆藏,这得益于其独特的优势:

  • 法定送存制度: 法律规定,所有在挪威出版的书籍和广播内容都必须向图书馆缴送副本。这项任务甚至扩展到收集和保存挪威所有的文化遗产。
  • 版权内容授权: 图书馆与挪威报纸达成协议,允许其在 LLM 训练中使用受版权保护的内容。Marius Husnes(图书馆 IT 平台负责人)强调:“没有私营公司拥有这种条件。”
  • 庞大的数字化档案: 自 2005 年以来,图书馆一直在进行数字化工作,积累了 20 PB 的独立数据。这些数据以 3-2-1 备份形式存储(3 个副本,2 种介质,1 个异地),总存储量约 60 PB

从保存到训练的技术流程

项目的瓶颈不是计算能力,而是数据质量、数据清理和管道吞吐量。整个流程分为两个主要阶段。

第一阶段:内部数据准备

此阶段在图书馆内部进行,目标是为训练准备高质量的数据。

  • 核心存储: 使用总计 2 PB 的华为 OceanStor Dorado 全闪存阵列,为数据管道和训练准备提供低延迟、高吞吐量的存储支持。
  • 处理步骤: 数据经过一系列处理,包括数据摄取、清理、去重、格式规范化、验证和准备
  • 计算设备: 使用 Nvidia DGX H200 系统和 384 核 CPU 集群进行计算。

第二阶段:在国家超算上训练

经过内部管道处理后的数据,被发送到挪威的国家超级计算机 Sigma2 Olivia 系统进行实际的 LLM 训练。

面临的主要挑战

项目团队发现,将 PB 级数据集从一个系统迁移到另一个系统并进行处理,存在许多未被充分讨论的难题。

  • 存储系统冲突: 60 PB 的保存系统为耐久性和成本而优化,读取延迟高;而 AI 管道存储则需要高吞吐、低延迟和并行数据 IO。在这两种特性截然不同的系统之间移动数据是一个巨大挑战。
  • 评估工具缺失: 挪威语有两种书面形式和多种方言,且语言在不断变化。目前没有标准的评估工具来衡量挪威语 LLM 的表现,团队必须在实践中自行构建
  • 治理问题: 谁来控制主权 LLM 的访问权限?谁来决定它的用途?这些都是没有简单答案的制度和政治问题
  • 系统协同:保存档案、本地 AI 环境和国家超级计算机这三个系统顺畅地协同工作,是一项持续进行的工程。

挪威是一个小国,但它正在解决每个非英语国家都将面临的问题:如何构建一个能反映你的语言、你的文化和你的历史的 AI?AI 需要监护人,而不仅仅是建造者。