AIME'25满分炸场！Qwen一波七连发，全家桶大更新

金磊发自凹非寺量子位 | 公众号 QbitAI 它来了，它来了！新一代旗舰模型 Qwen3-Max 带着满分成绩，正式地来了—— 国产大模型首次在AIME25和HMMT这两个数学评测榜单拿下 100分！和前不久Qwen3-Max-Preview一致，参数量依旧是超万亿的规模。但这次正式的发布在版本上有了一个划分：而且Qwen3-Max在性能上也有了一定的提升（情商智商，双商增强）。刚才我们提到的数学满分，正是思考版所拿下的成绩。至于指令版，则是在SWE-Bench评测（大模型用coding解决真实世界问题）中斩获69.6分，位列全球第一梯队。以及在Tau2 Bench测试（考察Agent工具调用能力）中，超过Claude Opus4和DeepSeek V3.1，拿下74.8分的成绩。指令版（Instruct）思考版（Thinking）强，确实是有点强。但有一说一，如果说Qwen3-Max是一把"火"，那么在刚刚的云栖大会上，通义团队还散出了很多的"星"。视觉：Qwen3-VL重磅开源从Qwen3-Max散出来的第一个"星"，就是视觉理解模型 Qwen3-VL 。其 ...