AIME'25满分炸场!Qwen一波七连发,全家桶大更新
量子位·2025-09-24 06:28
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 它来了,它来了! 新一代旗舰模型 Qwen3-Max 带着 满分 成绩,正式地来了—— 国产大模型 首次 在AIME25和HMMT这两个数学评测榜单拿下 100分! 和前不久Qwen3-Max-Preview一致,参数量依旧是 超万亿 的规模。 但这次正式的发布在版本上有了一个划分: 而且Qwen3-Max在性能上也有了一定的提升(情商智商,双商增强)。 刚才我们提到的数学满分,正是思考版所拿下的成绩。 至于指令版,则是在SWE-Bench评测(大模型用coding解决真实世界问题)中斩获69.6分,位列全球第一梯队。 以及在Tau2 Bench测试(考察Agent工具调用能力)中,超过Claude Opus4和DeepSeek V3.1,拿下74.8分的成绩。 指令版(Instruct) 思考版(Thinking) 强,确实是有点强。 但有一说一,如果说Qwen3-Max是一把"火",那么在刚刚的云栖大会上,通义团队还散出了很多的"星"。 视觉:Qwen3-VL重磅开源 从Qwen3-Max散出来的第一个"星",就是视觉理解模型 Qwen3-VL 。 其 ...