Synth Daily

Omnilingual ASR:让1600种语言都能“听懂人话”

Meta 发布了一款名为 Omnilingual ASR 的自动语音识别系统,它能够支持超过 1600种语言,包括许多以前从未被 AI 技术转录过的低资源语言。该系统旨在解决现有语音识别技术过度集中于少数主流语言的问题,通过一个庞大的多语言语音模型和社区驱动的框架,让更多语言能够被数字化。其核心目标是打破语言障碍,让全球不同语言和文化背景的人们都能实现无障碍交流。

目前,大多数自动语音识别系统都集中在少数网络上资源丰富的主流语言。这意味着对于那些使用较少见或低资源语言的人来说,高质量的语音转文字服务往往是缺失的,这进一步加剧了数字鸿沟。

超越单纯的多语言支持

传统的语音识别技术在扩展语言覆盖范围时,因其对大量数据的依赖而变得成本高昂。Omnilingual ASR 通过两种创新的架构设计解决了这一难题。

  • 模型规模化: 首次将 wav2vec 2.0 语音编码器扩展到 7B(70亿)参数,使其能从未经转录的原始语音数据中提取丰富的多语言语义信息。
  • 解码器创新: 开发了两种解码器。其中一种被称为 LLM-ASR,它借鉴了大型语言模型(LLM)的思路,显著提升了语音识别的性能,尤其是在那些数据稀疏的“长尾”语言上。

该系统在超过1600种语言上实现了顶尖的性能,其中 78% 的语言字符错误率(CER)低于10%

带来你自己的语言:一种新模式

Omnilingual ASR 改变了将新语言纳入语音识别系统的方式。过去,添加一种新语言需要专家进行复杂的微调,这对大多数社区来说是遥不可及的。

现在,该系统引入了 “in-context learning”(情境学习) 的能力。这意味着,一个使用未被支持语言的人,只需提供极少数的“语音-文本”配对样本,就能获得可用的转录质量。这个过程无需大规模训练数据、专业知识或高端计算设备,为将更多语言带入数字世界提供了一条更具扩展性的路径。

一套面向不同场景的工具

Meta 发布了一整套模型和一个数据集,以支持开发者和研究人员为任何语言扩展和改进语音技术。

  • 多种模型版本: 提供从适用于低功耗设备的 3亿参数轻量级版本,到提供顶级精度的 70亿参数强大版本
  • 通用语音基础模型: wav2vec 2.0 模型也以不同大小开放,可用于语音识别之外的其他语音相关任务。
  • Omnilingual ASR 语料库: 一个包含 350种服务不足语言 的独特转录语音数据集,这也是迄今为止最大的超低资源自发语音识别数据集。

与全球伙伴共同构建

为了覆盖那些几乎没有数字足迹的语言,Meta 与世界各地的本地组织、语言学家和社区合作。这些合作伙伴帮助招募母语者录制语音,并提供了宝贵的语言学知识和文化理解。

通过与 Mozilla 基金会的 Common Voice 等组织合作,该项目能够直接与本地社区协作,确保技术能够满足当地需求,并为全球多样化的语言社区赋权。