Workflow
等了大半年的Qwen3-VL终于也开源了!
自动驾驶之心·2025-09-24 06:35

阿里云通义千问Qwen3-VL多模态模型发布 - 阿里云在云栖大会期间密集开源了Qwen3-Omni系列、Qwen-Image-Edit-2509、Qwen3-VL、Qwen3Guard-Gen等12个模型[4] - 同时发布了未开源的API产品包括Qwen-TTS、Qwen3-Coder-Plus、Qwen3-Max、Qwen3-LiveTranslate等[5] - Qwen3-VL-235B-A22B作为MoE架构模型采用MRoPE-Interleave位置编码技术 显著提升长视频理解能力[7] 模型架构升级 - vision encoder部分将patch_size从14扩大到16 激活函数从silu变为gelu_pytorch_tanh[6] - projector部分在MLP-based Projector基础上增加DeepStack 将vision encoder中8、16、24三层特征插入LLM[6] - llm decoder部分采用Qwen3模型 支持Dense和MoE两种架构[7] 性能基准测试表现 - 在MMMUVAL测试中获得78.7分 接近Gemini2.5-Pro的80.9分[10] - MathVistamini测试达到84.9分 显著超越GPT5的50.9分和Claude-Opus-4.1的74.5分[10] - MMBench_EN_V1.1 dev测试获得89.9分 超越InternVL3的89.0分[10] - DocVQATEST测试达到97.1分 领先Gemini2.5-Pro的94.0分和GPT5的89.6分[10] - OCRBench测试获得920分 大幅超越Gemini2.5-Pro的872分和GPT5的787分[10] 实际应用测试结果 - OCR手写体识别准确率显著提升 色彩识别能力改善明显[13] - 表格识别任务保持高水平表现 能够准确还原HTML表格结构[17][19] - 数学计算能力突出 在GDP数据计算任务中准确识别江苏省141633.8亿元为最大值并计算占比10.56%[36][37][39] - 图片排序任务表现优异 正确理解雪糕购买滑倒的因果逻辑序列[71][73] - 色盲测试全部通过 准确识别数字6和74[93][97] - 医疗报告分析能力强大 准确解读体检报告异常指标[27][28] 现存技术局限 - 网页复刻任务效果较差 生成的HTML代码美观度不足[23] - 目标计数存在误差 将10个菇娘儿误判为11个[46] - 空间变换能力有限 复杂三维变换任务回答错误[89] - 地标识别存在偏差 将上海金茂大厦误认为上海中心大厦[104] - 多图对比任务表现不佳 奔跑的人定位任务行列序号判断错误[52][54] 模型部署建议 - 当前235B-A22B参数规模较大 期待推出30B-A3B等轻量化版本满足更广泛部署需求[106] - 推理版本存在过度思考导致错误的问题 需要优化思考机制[13] - 在GUI界面理解任务中表现良好 得益于精准的grouding能力[13]