Mistral AI 发布了新一代 Mistral 3 系列模型,全部采用 Apache 2.0 开源许可。该系列包含专为边缘设备设计的 Ministral 3 小型模型(3B、8B、14B),以及功能最强大的稀疏专家混合模型 Mistral Large 3。这些模型具备多语言、多模态(图像理解)能力,并在性能与成本之间取得了良好平衡。通过与 NVIDIA 等公司合作,新模型实现了高效推理,旨在推动一个更加开放、透明和易于访问的 AI 生态系统。
Mistral 3 系列:新一代开源模型
Mistral 3 系列的发布旨在通过开放模式,将 AI 交到更多人手中。
- Mistral Large 3: 目前最强大的模型,是一个稀疏专家混合模型 (MoE)。
- Ministral 3 系列: 包括 3B、8B 和 14B 三种尺寸的小型密集模型,拥有出色的性价比。
- 开放许可: 所有模型均在 Apache 2.0 许可下发布,为开发者和企业提供了极大的灵活性。
Mistral Large 3:顶尖的开放模型
Mistral Large 3 是世界上最好的开放权重模型之一,在性能上可与顶尖模型媲美。
- 强大性能: 在多语言对话(非英语/中文)和图像理解方面表现出色。
- 先进架构: 作为一款专家混合模型 (MoE),它在预训练方面取得了重大进步。
- 硬件支持: 使用了 3000 个 NVIDIA H200 GPU 进行训练,确保了强大的计算基础。
- 版本发布: 同时发布了基础模型和指令微调版本,为社区的进一步定制提供了坚实基础。
Ministral 3:为边缘设备打造的智能
对于边缘计算和本地部署场景,Ministral 3 系列提供了理想的解决方案。
- 多种选择: 提供 3B、8B 和 14B 三种参数规模。
- 功能全面: 每个尺寸都包含基础、指令和推理三种变体,并且全部具备图像理解、多语言和多模态能力。
- 高性价比: 在实际应用中,该系列在性能相当的情况下,生成的 token 数量远少于同类模型,实现了成本与性能的最佳平衡。
对于只关心准确性的场景,Ministral 的推理变体可以通过更长时间的思考,在其权重级别内达到顶尖的准确率。
强大的生态合作
为了让模型更易于使用且运行更高效,Mistral 与多家技术领导者展开了合作。
- 核心伙伴: 与 NVIDIA、vLLM 和 Red Hat 紧密合作,共同优化模型。
- 高效推理: 所有模型都在 NVIDIA Hopper GPU 上训练。NVIDIA 工程师为 TensorRT-LLM 等工具提供了高效的推理支持。
- 边缘优化: NVIDIA 还为 RTX 个人电脑和 Jetson 等边缘设备提供了优化部署方案,使模型可以从数据中心无缝运行到机器人。
快速上手与定制化
Mistral 3 模型已在多个主流平台上线,并提供定制化服务。
可用平台:
- Mistral AI Studio
- Amazon Bedrock
- Azure Foundry
- Hugging Face
- Modal
- IBM WatsonX
- 以及更多平台即将上线
定制服务: Mistral AI 为有特殊需求的企业提供定制模型训练服务,可以根据特定领域的任务或私有数据集进行微调或完全适配。
为什么选择 Mistral 3?
- 顶尖性能,开放获取: 以开源模型的透明度和控制权,获得接近闭源模型的性能。
- 多模态与多语言: 能够理解文本、图像,并支持超过 40 种原生语言。
- 可扩展的效率: 提供从 3B 到 675B 的多种参数规模,满足从边缘设备到企业级工作流的不同需求。
- 适应性强: 可精确部署于编码、创意协作、文档分析或工具使用等多种工作流程。
“生活中没有什么值得恐惧,只有需要理解。现在正是我们加深理解的时候,这样我们才能减少恐惧。” —— 玛丽·居里
这一理念驱动着 Mistral AI 的使命。通过开放、透明和共同进步,我们邀请世界各地的开发者和创新者一起探索、构建和创新,共同将理解转化为行动。