模型发布与定位 - Qwen团队发布下一代模型架构Qwen3-Next 作为Qwen3 5的抢先预览版 [1] - 基于新架构开源首个模型Qwen3-Next-80B-A3B-Base [2] 架构创新与技术改进 - 采用混合注意力机制Gated DeltaNet 以3:1比例混合标准注意力 在上下文学习能力上优于滑动窗口注意力和Mamba2 [10] - 引入高稀疏度MoE结构 总参数量800亿但每次推理仅激活约30亿参数 [13] - 专家系统扩展至512总专家 采用10路由专家加1共享专家设计 提升资源利用率 [15] - 采用Zero-Centered RMSNorm并对norm weight施加weight decay 提高训练稳定性 [16] - 初始化时归一化MoE router参数 确保专家无偏选择 [17] - 引入原生多token预测机制(MTP) 提升推测解码接受率和主干性能 [18] 性能表现与效率优势 - 训练成本不到Qwen3-32B的十分之一 推理吞吐在32k以上上下文达到后者十倍以上 [3] - 训练GPU计算资源仅需Qwen3-32B的9 3% [22] - 预填充阶段吞吐量在4k上下文接近Qwen3-32B的7倍 32k以上上下文提升10倍以上 [24] - 解码阶段4k上下文吞吐提升约4倍 32k以上上下文保持10倍优势 [26] 基准测试结果 - Base模型在多数基准测试超越Qwen3-32B-Base 显著优于Qwen3-30B-A3B [28] - MMLU得分84 72 超越Qwen3-32B的83 61 [29] - MATH得分62 36 超越Qwen3-32B的61 62 [29] - Instruct模型在RULER测试中全上下文长度表现优于Qwen3-30B-A3B-Instruct 在256k范围内超越Qwen3-235B-A22B-Instruct [33][34] - Thinking模型在多项基准测试超越闭源模型Gemini-2 5-Flash-Thinking 部分指标接近Qwen3-235B-A22B-Thinking [35] 应用能力展示 - 支持多模态输入 可处理图像内容 [39] - 成功解答AIME数学竞赛题 答案完全正确 [40] - 能够生成可运行的扫雷游戏代码 [43][44] - 具备天气卡片生成等创意应用能力 [47] 资源获取与部署 - 模型已在魔搭社区和抱抱脸平台开源 [48] - 可通过Qwen Chat免费体验或调用阿里云百炼API服务 [48]
实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍
量子位·2025-09-12 08:46