Synth Daily

疯狂万亿参数!阿里 Qwen3-Max 顶尖模型发布 - 强到撼动 GPT5 / Claude 4 地位

阿里巴巴发布了旗舰级开源大模型“通义千问3”(Qwen3-Max),其参数量超过万亿,在多个国际权威测试中表现出色,尤其在编程、智能体和数学推理方面稳居全球前三。该模型采用高效的 MoE 架构,分为主打交互的 Instruct 版本和专攻推理的 Thinking 版本,旨在挑战 GPT-5 和 Claude 4 等顶级模型的地位,标志着国产大模型技术达到了新的高度。

旗舰级模型:通义千问 Qwen3-Max

Qwen3-Max 是“通义千问”系列中规模最大、能力最强的开源基础大模型,其总参数量超过 1 万亿,预训练数据量高达 36T tokens。这使其成为阿里在大模型赛道上的“集大成之作”,直接对标全球顶尖的通用人工智能。

目前,用户可以通过阿里云百炼、七牛云等第三方 API 平台,或直接访问通义千问官网来体验。

两个版本,不同专长

通义千问3-Max 包含两个定位不同的版本,以满足多样化的任务需求。

  • Qwen3-Max-Instruct (指令版): 主打高效的交互对话、指令遵循、编程和智能体(Agent)任务。它适合日常对话、代码生成、工具调用等需要快速响应和执行的场景。
  • Qwen3-Max-Thinking (思考版): 专攻高难度推理任务,如数学证明、逻辑推演和复杂问题拆解。它适合科研、竞赛、深度分析等需要深思熟虑的“烧脑”工作。

你可以这样理解:Instruct 版本是反应迅速、执行力强的“职场精英”,而 Thinking 版本则是善于解决复杂问题、追求极致准确的“研究型学霸”。

性能实测:稳居全球第一梯队

Qwen3-Max 的强大并非空谈,而是在多个国际权威基准测试中取得了顶尖成绩。

  • 编程能力 (SWE-Bench): 获得了 69.6 分的成绩。该测试要求模型自动修复真实的 GitHub 项目漏洞,这一分数意味着它在代码理解和工程实现上已达到甚至超越主流闭源模型。
  • 智能体能力 (Tau2-Bench): 取得了 74.8 分的成绩,位列全球第一。这表明模型能像“数字员工”一样,自主规划任务、调用工具完成复杂目标,能力超越了 Claude Opus 4。
  • 数学推理 (AIME & HMMT): 在美国数学邀请赛(AIME)和哈佛-麻省理工数学竞赛(HMMT)中,Thinking 版本取得了 100 分的双满分。它通过调用代码解释器将抽象问题转化为可执行程序来解决,展现了“制造工具来解题”的更高阶能力。
  • 综合文本能力 (LMArena): 在人工盲测排行榜中,其预览版已稳居全球前三,仅次于 Gemini 2.5 和 GPT-5。

核心技术:万亿参数背后的稳定与高效

Qwen3-Max 的成功不仅在于参数规模,更在于其扎实的底层工程能力。

  • 采用 MoE 架构: 全称为“Mixture of Experts”,该架构能在保证强大性能的同时,有效控制推理成本。
  • 训练过程极其稳定: 实现了零 loss 尖刺,无需中途回退或调整数据,证明了其训练框架的成熟与可靠。
  • 强大的长文本处理: 使用 ChunkFlow 策略,支持百万级上下文训练,处理长文本的能力被拉满。
  • 极高的训练效率: 在超大规模集群上,硬件故障导致的训练时间损失仅为上一代的 1/5,模型训练效率(MFU)提升了 30%。

如何开始使用 Qwen3-Max?

无论是开发者、科研人员还是普通用户,都可以从 Qwen3-Max 的强大能力中获益。

体验方式:

  • API 调用: 通过七牛云、阿里云百炼等平台接入 API,并使用 ChatWise、Cherry Studio 等客户端工具进行调用。
  • 网页版体验: 直接访问通义千问官网,即可与 Qwen3-Max-Instruct 版本进行对话。

多模态全能模型:Qwen3-Omni

除了 Qwen3-Max,阿里还发布了多模态模型 Qwen3-Omni。它能同时处理文本、图像、音频、视频,并一次性生成包含多种模态的输出,为数字人、虚拟主播、在线教育等应用场景提供了强大的技术支持。