Workflow
低激活开销模型
icon
搜索文档
阿里深夜干了件大事,成本暴降90%
36氪· 2025-09-12 02:45
模型发布与核心参数 - 阿里通义实验室发布下一代基础模型架构Qwen3-Next及基于该架构的Qwen3-Next-80B-A3B-Base模型,模型总参数量达800亿,但仅激活30亿参数 [1] - Base模型使用15T tokens训练数据,仅需Qwen3-32B 9.3%的GPU计算资源,在超过32k上下文长度时推理吞吐量可达Qwen3-32B的10倍以上 [1][8] - 基于Base模型开源指令模型(Instruct)和思维模型(Thinking),支持原生262144 token上下文长度,并可扩展至1010000 token [1] 性能表现对比 - 指令模型性能与参数规模更大的Qwen3-235B-A22B-Instruct-2507相当,思维模型优于谷歌闭源模型Gemini-2.5-Flash-Thinking [2][6] - 在MMLU基准测试中,Qwen3-Next-80B-A3B-Base得分为84.72,接近Qwen3-235B-A22B-Base的87.81 [7] - 在数学推理基准MATH测试中,Qwen3-Next-80B-A3B-Base得分为62.36,优于Qwen3-32B-Base的61.62 [7] - 在RULER长文本评测中,Qwen3-Next-80B-A3B-Instruct在256k范围内表现超过Qwen3-235B-A22B-Instruct-2507 [13][14] 架构创新与技术特点 - 新增混合注意力机制(Gated DeltaNet与Gated Attention组合)、高稀疏度MoE结构、训练稳定性优化及多Token预测(MTP)机制 [5][16][18] - MoE专家激活比从Qwen3系列的1:16提升至1:50,实现极低激活比率 [18] - 采用3:1的混合注意力比例(75% Gated DeltaNet + 25%标准注意力),在超长上下文建模中实现性能与效率双重优化 [18] - 多Token预测机制提升推理效率,投机采样接受率得到进一步提高 [19] 效率与成本优势 - 总训练成本不到Qwen3-32B-Base的10%,GPU计算资源消耗仅为Qwen3-32B的9.3% [1][6] - 在4k tokens上下文长度下,预填充阶段吞吐量达Qwen3-32B的7倍,解码阶段吞吐量提升近4倍 [8][10] - 在超过32k上下文长度时,预填充和解码阶段吞吐量均保持10倍以上优势 [8][10] 模型生态与开源 - 新模型已在魔搭社区、Hugging Face、Qwen Chat、阿里云百炼及NVIDIA API Catalog等多个平台开放体验 [5] - 开发者社区对多Token预测机制反馈积极,认为这是架构中最令人印象深刻的部分 [5] - 阿里通义实验室持续优化架构并开发Qwen3.5,同时推出多领域模型如Qwen3-Max-Preview、Qwen-Image-edit、Qwen3-ASR-Flash等 [21]