Workflow
高稀疏度MoE结构
icon
搜索文档
阿里巴巴开源新架构Qwen3-Next 训练成本大幅下降 引入混合注意力机制
智通财经· 2025-09-12 06:12
模型架构升级 - 公司发布下一代基础模型架构Qwen3-Next并开源Qwen3-Next-80B-A3B系列模型 包含指令模型和推理模型两个版本 [1] - 新架构核心改进包括混合注意力机制 高稀疏度MoE结构 训练稳定优化及多token预测机制(MTP) [1] - 高稀疏MoE架构实现1比50的极致激活比 较此前Qwen3系列1比16的激活比显著提升 [2] 性能表现 - 新模型总参数80B仅激活3B 性能可媲美千问3旗舰版235B模型 [1] - 训练成本较密集模型Qwen3-32B大幅降低超90% [1] - 长文本推理吞吐量提升10倍以上 支持百万Tokens超长上下文处理 [1] 技术突破 - MoE架构通过激活大参数中的小部分专家完成推理任务 是主流大模型采用的技术路径 [2] - 高稀疏MoE架构是公司面向下一代模型的最新探索 [2] - 多token预测机制(MTP)有效提升模型推理效率 [1]