Synth Daily

IBM Granite 4.1 系列模型

IBM 推出了 Granite 4.1 模型系列,这是一套专为企业应用设计的、涵盖语言、语音、视觉、向量嵌入和安全守护等多种功能的人工智能模型。该系列专注于提升指令遵循、工具调用、图表识别和风险检测等实际任务的性能,通过高质量数据训练和多阶段强化学习,在保证效率的同时降低了成本。所有模型均采用 Apache 2.0 开源许可,可在 Hugging Face 等平台便捷部署。

新一代企业级 AI 模型

现代企业级 AI 系统通常由多种技术和能力组合而成,而非依赖单一模型。Granite 4.1 系列正是为了满足这一现实需求而发布的,它包含了一系列协同工作的模型,旨在帮助开发者轻松构建真实世界的 AI 应用。

  • 语言模型 (SLMs): 用于指令遵循和工具调用。
  • 语音模型: 提供顶级的语音转写精度。
  • 视觉模型: 擅长表格和图表信息提取。
  • 安全守护模型: 用于检测和防范风险。
  • 向量嵌入模型: 实现高效的多语言检索。

核心语言模型:高效与精准

Granite 4.1 系列的核心是新一代的语言模型,提供 3B、8B 和 30B 参数规模。这些模型在企业关键任务(如 指令遵循工具调用)上的表现非常出色,性能可与市面上其他主流开源模型媲美,且无需依赖复杂的“推理链”,从而降低了使用成本和延迟。

“Granite 4.1 在不依赖长思维链的情况下,提供了有竞争力的指令遵循和工具调用性能,带来了可预测的延迟、稳定的 token 使用和更低的操作成本。这使其成为企业工作负载的强大、生产就绪选择,因为效率和可靠性至关重要。” — Rameswar Panda, IBM 研究院杰出工程师

其卓越性能源于独特的训练理念:

  • 优先考虑数据质量: 相比原始数据量,更注重数据质量和分阶段优化。
  • 大规模多阶段训练: 模型在约 15 万亿个 token 上进行训练,逐步转向高质量的技术和科学数据。
  • 支持长上下文: 上下文长度可扩展至 512K token,能有效处理长文档。
  • 多阶段强化学习 (RL): 针对指令遵守、对话质量、事实准确性等不同能力进行独立优化,避免了单阶段优化中常见的性能权衡。

Granite Vision 4.1:文档理解专家

这一代视觉模型(VLM)专为文档理解任务设计,特别擅长从表格、图表中提取信息,以及识别发票号、日期等键值对(KVP)

“这些任务对于自动化企业流程至关重要。Granite Vision 可以作为前沿模型的替代方案,以极低的成本大规模执行这些任务。” — Eli Schwartz, IBM 研究院多模态 AI 组研究经理

其关键优势在于:

  • 创新的特征注入方案: 将视觉信息分布在语言模型的多个层级,结合了语义理解与精细的空间细节。
  • 企业级数据训练: 使用真实案例和合成数据进行训练,专门针对企业用例进行优化。

Granite Speech 4.1:多语言语音识别

新的语音模型引入了多语言语音识别和翻译功能,并提供不同版本以平衡吞吐量、延迟和转录丰富度。

  • Granite Speech 4.1 2B: 实现了 5.33% 的词错误率 (WER),在公开排行榜上名列前茅。
  • 2B Plus: 增加了更丰富的转录功能(如标点符号)。
  • 2B NAR: 采用非自回归结构,一次性生成整个序列,显著提高了吞吐量和 GPU 利用率。

早期的 Granite Speech 模型已在实践中证明了其在嘈杂环境下的卓越性能,例如帮助澳大利亚皇家飞行医生服务队的临床医生在飞机上进行语音转录。

Granite Guardian 4.1:内置安全护栏

这是一个安全评估模型,用于评估其他语言模型(无论是开源还是闭源)的输入和输出是否存在风险。

  • 功能: 充当 AI 系统中的“仲裁者”,检测有害或“偏离策略”的响应。
  • 检测范围: 可标记社会偏见、攻击性语言、内容幻觉、用户试图绕过安全控制等多种风险。
  • 核心理念: 将安全性、质量和正确性视为模型驱动的问题,直接集成到 AI 流程中,而不是事后弥补。

Granite Embedding Multilingual R2:跨语言检索

该模型将检索能力扩展到超过 200 种语言,同时大幅增加了上下文长度,支持对大型多语言文档集进行高效的语义搜索。其中一个 97M 参数的小型模型证明了即使在资源有限的情况下,通过精心的训练也能实现顶级的检索性能。

开放与实用:为企业而生

Granite 4.1 系列的发布体现了一种系统级的 AI 理念:重点不是让单个模型变得更大,而是构建一个模块化、高效且可治理的企业级 AI 系统

所有模型均采用 Apache 2.0 许可发布,体现了 IBM 对开放和透明创新的承诺。用户可以在 watsonxHugging Face 上试用这些模型,并通过 vLLM、SGLang 和 llama.cpp 等流行的开源推理框架进行灵活部署。