Workflow
MindIE
icon
搜索文档
阿里Qwen3能否成为下一个DeepSeek?
36氪· 2025-05-07 11:38
模型发布与技术特点 - 阿里巴巴旗下通义千问团队发布并开源新一代模型Qwen3系列,包括2款参数规模为30B和235B的混合专家(MoE)模型,以及6款参数从0.6B到32B的密集模型 [1] - Qwen3采用混合专家(MoE)架构,旗舰模型Qwen3-235B-A22B总参数量235B但激活仅需22B,显著降低运行时算力需求 [3] - 预训练数据量跃升至36T,是Qwen2.5的三倍,多轮强化学习优化了模型在推理、指令遵循、工具调用及多语言能力等方面的表现 [5] - 在ArenaHard综合测试中得分95.6,AIME'24数学测试85.7,LiveCodeBench代码测试70.7,LiveBench决策测试77.1,显示多项能力提升 [5] 部署与成本优势 - 华为昇腾MindSpeed和MindIE实现Qwen3系列0Day适配,海光信息DCU完成全部8款模型无缝适配与调优 [2] - Qwen3-30B-A3B可单卡4090部署,Qwen3-235B-A22B仅需4张H20,显存占用为性能相近模型的三分之一,大幅降低部署成本 [2][6] - 与DeepSeek-R1相比参数量仅为其1/3,成本大幅下降,降低中小企业和个人开发者使用高性能模型的门槛 [6] 性能表现与局限性 - 在生成复杂代码、数学推理等方面思考模式表现明显优于非思考模式,但长文本能力表现不突出且存在一定幻觉率 [6] - 测试显示"普通"模式生成报告时出现较高幻觉率,而"深度思考"模式下幻觉率大幅降低,数据准确性提升 [6] 公司战略布局 - 阿里未来三年将投入超3800亿元用于云和AI硬件基础设施建设,强化通义千问与夸克的"双子星"格局 [7] - 通义千问专注云上智能支撑,夸克打造端侧入口,两大App所有用户均可免费使用Qwen3开源模型 [7] - 夸克2025年3月MAU达1.48亿登顶国内AI应用榜首,公司通过组织调整整合天猫精灵与夸克团队推进AI To C战略 [9] 行业竞争态势 - 腾讯混元大模型依托微信生态优势,字节跳动豆包借助抖音推流优势,2024年11月MAU达5998万长期霸榜AI应用前三 [10] - 阿里面临技术优势维持与使用门槛降低的双重挑战,中小企业技术对接与模型二次开发存在困难 [9] - 夸克用户体验稀释问题凸显,需优化技术架构与服务器性能以应对用户快速增长 [10]
华为昇腾全系列支持Qwen3
快讯· 2025-04-29 10:31
阿里通义千问模型Qwen3开源与华为昇腾支持 - 阿里通义千问模型Qwen3于4月29日开源数小时后即获得华为昇腾的全系列模型部署支持 [1] - 开发者可通过华为MindSpeed和MindIE工具实现千问3的0Day适配即开箱即用 [1] - 千问3是国内首个"混合推理模型"集成"快思考"与"慢思考"机制 [1] 千问3技术特性 - 模型对简单需求采用低算力"秒回"模式显著提升响应效率 [1] - 对复杂问题启用多步骤"深度思考"功能优化计算资源分配 [1] - 混合推理架构设计实现整体算力消耗的大幅节省 [1]