Synth Daily

Mistral 3 系列模型正式发布

Mistral AI 发布了新一代 Mistral 3 系列模型,全部采用 Apache 2.0 开源许可。该系列包含专为边缘设备设计的 Ministral 3 小型模型(3B、8B、14B),以及功能最强大的稀疏专家混合模型 Mistral Large 3。这些模型具备多语言、多模态(图像理解)能力,并在性能与成本之间取得了良好平衡。通过与 NVIDIA 等公司合作,新模型实现了高效推理,旨在推动一个更加开放、透明和易于访问的 AI 生态系统。

Mistral 3 系列:新一代开源模型

Mistral 3 系列的发布旨在通过开放模式,将 AI 交到更多人手中。

  • Mistral Large 3: 目前最强大的模型,是一个稀疏专家混合模型 (MoE)。
  • Ministral 3 系列: 包括 3B、8B 和 14B 三种尺寸的小型密集模型,拥有出色的性价比。
  • 开放许可: 所有模型均在 Apache 2.0 许可下发布,为开发者和企业提供了极大的灵活性。

Mistral Large 3:顶尖的开放模型

Mistral Large 3 是世界上最好的开放权重模型之一,在性能上可与顶尖模型媲美。

  • 强大性能: 在多语言对话(非英语/中文)和图像理解方面表现出色。
  • 先进架构: 作为一款专家混合模型 (MoE),它在预训练方面取得了重大进步。
  • 硬件支持: 使用了 3000 个 NVIDIA H200 GPU 进行训练,确保了强大的计算基础。
  • 版本发布: 同时发布了基础模型指令微调版本,为社区的进一步定制提供了坚实基础。

Ministral 3:为边缘设备打造的智能

对于边缘计算和本地部署场景,Ministral 3 系列提供了理想的解决方案。

  • 多种选择: 提供 3B、8B 和 14B 三种参数规模。
  • 功能全面: 每个尺寸都包含基础、指令和推理三种变体,并且全部具备图像理解、多语言和多模态能力。
  • 高性价比: 在实际应用中,该系列在性能相当的情况下,生成的 token 数量远少于同类模型,实现了成本与性能的最佳平衡

对于只关心准确性的场景,Ministral 的推理变体可以通过更长时间的思考,在其权重级别内达到顶尖的准确率。

强大的生态合作

为了让模型更易于使用且运行更高效,Mistral 与多家技术领导者展开了合作。

  • 核心伙伴:NVIDIA、vLLM 和 Red Hat 紧密合作,共同优化模型。
  • 高效推理: 所有模型都在 NVIDIA Hopper GPU 上训练。NVIDIA 工程师为 TensorRT-LLM 等工具提供了高效的推理支持。
  • 边缘优化: NVIDIA 还为 RTX 个人电脑和 Jetson 等边缘设备提供了优化部署方案,使模型可以从数据中心无缝运行到机器人。

快速上手与定制化

Mistral 3 模型已在多个主流平台上线,并提供定制化服务。

  • 可用平台:

    • Mistral AI Studio
    • Amazon Bedrock
    • Azure Foundry
    • Hugging Face
    • Modal
    • IBM WatsonX
    • 以及更多平台即将上线
  • 定制服务: Mistral AI 为有特殊需求的企业提供定制模型训练服务,可以根据特定领域的任务或私有数据集进行微调或完全适配。

为什么选择 Mistral 3?

  • 顶尖性能,开放获取: 以开源模型的透明度和控制权,获得接近闭源模型的性能。
  • 多模态与多语言: 能够理解文本、图像,并支持超过 40 种原生语言。
  • 可扩展的效率: 提供从 3B 到 675B 的多种参数规模,满足从边缘设备到企业级工作流的不同需求。
  • 适应性强: 可精确部署于编码、创意协作、文档分析或工具使用等多种工作流程。

“生活中没有什么值得恐惧,只有需要理解。现在正是我们加深理解的时候,这样我们才能减少恐惧。” —— 玛丽·居里

这一理念驱动着 Mistral AI 的使命。通过开放、透明和共同进步,我们邀请世界各地的开发者和创新者一起探索、构建和创新,共同将理解转化为行动。