Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!
量子位·2025-09-10 10:01
模型发布与核心性能 - 阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)与初创公司G42 AI合作推出开源大模型K2 Think [3] - 模型声称是全球最快的开源大模型,速度达到每秒2000个tokens,吞吐量超过典型GPU部署的10倍以上 [1] - 模型参数规模为320亿(32B),官方称其性能可与OpenAI和DeepSeek的旗舰推理模型相当 [24] 技术架构与创新 - K2 Think基于Qwen 2.5-32B模型打造,具有中国技术背景 [5][6] - 研究团队从六个方面实现技术创新:长链路思维的监督微调、可验证奖励的强化学习、推理前的智能规划、推理时扩展、推测解码以及硬件加速(Cerebras WSE晶圆级引擎) [28][31] - 模型采用答案对错作为奖励信号,显著提升数学和逻辑领域表现,并在多项安全测试中达到较高水平 [30][31] 实测性能表现 - 实测速度均超过2000 tokens/秒,在IMO试题测试中达到2730.4 tokens/秒,在AIME数学题测试中保持2224.7 tokens/秒 [10][14][18] - 在多项数学基准测试中取得理想分数:AIME'24得分90.83、AIME'25得分81.24、HMMT25得分73.75、Omni-MATH-HARD得分60.73 [25] - 目前模型不支持文档传输和多模态功能,但所有测试问题均能保持高速并生成正确答案 [19][20] 行业影响与资源 - 模型被誉为"有史以来最先进的开源AI推理系统",技术报告已发布 [8][22][27] - 提供公开体验地址和技术报告链接,可供行业从业者直接测试评估 [33]