Workflow
Qwen3大模型
icon
搜索文档
给阿里千问一个“客观估计”——围绕QWen3的大模型横评
Qwen3模型定位 - Qwen3旗舰模型综合能力进入全球第一梯队,略低于Gemini3、GPT-5.1和Kimi K2 Thinking,与Grok 4.1、Claude Opus 4.1属于同档[2] - 在国内市场位列Top 2-3行列[2] 模型基本面 - 采用Dense模型与MoE旗舰架构,参数规模从0.6B延伸至32B,旗舰型号Qwen3-235B-A22B总参数235B,活跃参数22B,实现"参数巨舰+算力省电"[4] - 训练数据规模约36万亿token,覆盖119种语言/方言,对数学、代码、STEM推理进行额外强化[5] - 提供文本对话、写作、代码、多模态(图像/文档/表格)功能,长上下文版本支持百万级token[5] 性能评测体系 - 采用AA指数(综合0-100智能分)和人类盲评Elo榜作为核心评测标准[7] - 辅以AIME2025竞赛数学、HLE极难综合考试、LiveCodeBench/SciCode实战代码等专项基准[9][10] 全球竞争力表现 - AA指数得分约60分,与Grok 4.1和Claude 4.1同处顶级区,但与Gemini3 Pro、GPT-5.1、K2 Thinking存在7-10分差距[11] - 人类盲评显示Qwen3已进入第一梯队前列,用户体验与GPT-5/Gemini3差距不明显[12] - AIME2025竞赛数学测试位列第一梯队,在竞赛数学+推理特化场景中略逊于GPT-5.1/K2/Grok 4等专项强化模型[12] - 工程代码能力略弱于GPT-5.1/K2/Grok4,但已达到工程可用的一线水平,科学代码测试中各模型差距缩小至40%多区间[14][15] 国内市场格局 - 中国四强综合智能分数排序:Kimi K2 Thinking约67分 > Qwen3约60分 > DeepSeek-V3.2-Exp约57分 > 豆包1.5 Pro约48分[17][18] - Kimi K2 Thinking在浏览、工具调用、Agent任务方面表现突出,Qwen3各方面均衡,DeepSeek在国产芯片适配和长上下文性能有优势[17][18] 应用场景适配 - 中文/中英混合日常使用已达世界级体验,与顶级模型差距主要在极限长链推理和特定专业英文领域[20] - 多模态能力突出,Qwen2.5-VL和Qwen3-Omni在图像理解、文档解析、表格任务上经常获得高分[20] - 代码开发场景可支撑绝大多数团队日常开发工作,配合工具链后实用性显著提升[20]