Workflow
数学推理
icon
搜索文档
Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒
36氪· 2025-09-10 12:19
全球最快的开源大模型来了——速度达到了每秒2000个tokens! 虽然只有320亿参数(32B),吞吐量却是超过典型GPU部署的10倍以上的那种。 它就是由阿联酋的穆罕默德·本·扎耶德人工智能大学(MBZUAI)和初创公司G42 AI合作推出的K2 Think。 名字是不是有点熟悉? 没错,它和月之暗面前不久推出的Kimi K2在命名上是有点小撞车,不过阿联酋这个多了个"Think"。 但非常有意思的一点是,在K2 Think的背后,确实有"made in China"的味道。 因为从HuggingFace中的Model tree来看,K2 Think是基于Qwen 2.5-32B打造的: 而且"全球最快开源AI模型"之外,MBZUAI官方还称自家的K2 Think是"有史以来最先进的开源 AI 推理系统"。 那么它的实力到底几何?我们继续往下看。 实测速度均超过2000 tokens/秒 目前,K2 Think已经给出了可以体验的地址(见文末)。 我们先小试牛刀测试一把IMO的试题: Let a_n = 6^n + 8^n. Determine the remainder when dividing a_ ...
14B打败671B,微软rStar2-Agent在数学推理上超过DeepSeek-R1
36氪· 2025-09-02 07:36
模型性能突破 - 微软研究院开发的rStar2-Agent-14B模型仅14B参数规模,在数学推理基准测试中达到前沿性能,超越671B参数的DeepSeek-R1模型[2][17] - 该模型在AIME24测试中准确率达到80.6%,分别超过o3-mini (medium)、DeepSeek-R1和Claude Opus 4.0 (thinking) 1.0%、0.8%和3.6%[19] - 在AIME25和HMMT25测试中分别取得69.8%和52.7%的准确率,展现稳定一致的强大推理能力[18][19] 技术创新亮点 - 采用主动式强化学习方法,使模型能够与Python编程工具环境交互,通过反馈信号进行推理验证和学习[1][6] - 构建高吞吐量代码执行环境,支持45K个并发工具调用,平均反馈时间仅0.3秒[10] - 提出GRPO-RoC训练算法,通过非对称采样保留故障模式作为负向信号,同时强调高质量成功案例[12][14] - 采用负载均衡调度程序动态分配GPU资源,在64块MI300X GPU上仅用一周完成训练[10][12] 训练效率优势 - 仅需510个强化学习步骤即可实现前沿数学推理能力,大幅降低训练成本[16] - 采用多阶段强化学习训练,将每个阶段长度限制在8K→12K范围,避免大规模扩展至16K→48K[15] - 从非推理SFT阶段开始训练,避免过拟合并保持初始响应简短,使强化学习更有效培养推理能力[14] 泛化能力表现 - 尽管仅使用数学领域训练,在GPQA-Diamond科学推理基准上以60.9%准确率超越DeepSeek-V3的59.1%[22] - 在BFCL v3智能体工具使用任务达到60.8%准确率,在IFEval和Arena-Hard通用基准测试中分别取得83.4%和86.6%的竞争力表现[22]
14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek-R1
机器之心· 2025-09-02 01:27
核心观点 - 微软研究院开发了rStar2-Agent主动式强化学习方法,通过高效基础架构、GRPO-RoC算法和优化训练方案,使14B参数模型在数学推理任务上达到或超越671B参数模型的性能 [2][12][25] 环境与问题描述 - 研究使用Python编程工具和解释器作为环境,拓宽模型行动空间并支持中间步骤验证 [6][9] - 环境复杂性引入噪声,错误代码导致反馈延迟和token浪费,仅结果奖励机制加剧低质量推理轨迹问题 [9] - 大规模训练需处理数万个并发工具调用,对基础设施要求极高 [9][10] 技术方案创新 - 构建高吞吐量代码环境,支持45K并发工具调用且平均反馈时间仅0.3秒 [14] - 采用动态负载均衡调度程序,根据GPU键值缓存容量分配请求以提升计算利用率 [15] - 提出GRPO-RoC算法:通过非对称采样保留故障模式作为负向信号,筛选高质量正向轨迹 [16][18] - 训练方案从非推理SFT开始,避免过拟合并保持响应简短,后续通过多阶段强化学习逐步提升难度 [21][22] 性能表现 - rStar2-Agent-14B在AIME24准确度达80.6%,超越o3-mini(medium)1.0%、DeepSeek-R1 0.8%和Claude Opus 4.0 3.6% [26] - AIME25准确度69.8%,HMMT25达52.7% [26] - 平均响应长度显著缩短:AIME24仅9339.7 token(对比DeepSeek-R1-Zero的14246.8 token) [29] - 泛化能力强:GPQA-Diamond科学推理达60.9%(超越DeepSeek-V3),BFCL v3工具使用任务60.8% [29] 训练效率 - 使用64块MI300X GPU一周完成训练 [16] - 仅需510个强化学习步骤达到前沿性能,远低于同类方法(如MiMo需175K步骤) [23][24]
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
量子位· 2025-07-09 01:18
模型性能突破 - Polaris通过Scaling RL技术使4B模型在数学推理任务(AIME25得分79.4,AIME24得分81.2)超越商业大模型如Claude-4-Opus和Seed-1.5-thinking [1] - 仅用700步RL训练即让Qwen3-4B接近其235B版本的表现 [5] - 模型轻量化设计支持消费级显卡部署 [2] 训练方法论创新 - 提出"镜像J"数据分布理论:构建轻微偏向难题的分布可优化不同能力基模型的训练效果 [10] - 采用动态数据更新策略:删除训练过程中准确率过高的样本以维持挑战性 [13] - 实现多阶段温度调整:通过控制探索区温度初始化,动态维持60分多样性水平 [32][33] 技术实现细节 - 引入长度外推技术:应用YaRN方法将32K以上长文本准确率从26%提升至50% [41][43] - 优化采样温度区间:划分鲁棒生成区/控制探索区/性能崩塌区,打破t=0.6或1.0的行业惯例 [28] - 采用渐进式上下文窗口扩展:Qwen3-4B需直接从40K长度启动训练以避免性能塌陷 [52] 开源生态建设 - 完整公开训练数据/模型/代码,包括Huggingface模型库和GitHub仓库 [3][53] - 验证Scaling RL对前沿开源模型(如Qwen3)的普适性提升效果 [5] - 提出token利用效率概念:不同基模型对响应长度的敏感度存在显著差异 [51]
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
机器之心· 2025-06-16 05:16
大模型数学能力评测 - 七个大模型参与2025年数学新课标I卷测试,Gemini 2.5 Pro以145分位列第一,Doubao和DeepSeek R1以144分并列第二 [2] - 小米7B参数小模型MiMo-VL表现突出,总分139分与Qwen3-235B持平,仅比OpenAI o3低1分 [4] - MiMo-VL在7B参数多模态模型中优势显著,较同类Qwen2.5-VL-7B高出56分 [5] 细分题型表现 - 客观题部分(73分):MiMo-VL单选题得35分(总分40),多选题和填空题均获满分 [8][10][11] - 解答题部分(77分):MiMo-VL得71分位列第五,超越hunyuan-t1-latest和文心X1 Turbo [12] - 测试方法差异:MiMo-VL和Qwen2.5-VL-7B采用截图输入,其他模型使用文本Latex输入 [6] 小米MiMo-VL技术突破 - 模型基于MiMo-7B升级,在数学推理和代码竞赛中超越OpenAI o1-mini和阿里QwQ-32B-Preview [15] - 通过RL训练后,MiMo-7B-RL-0530版本达到与DeepSeek R1和OpenAI o3-mini相近水平 [16] - 多模态能力显著:在OlympiadBench等数学竞赛中领先10倍参数的Qwen-2.5-VL-72B和GPT-4o [20] 技术实现路径 - 采用混合在线强化学习算法(MORL),整合文本推理与多模态感知反馈信号 [27][29] - 预训练数据达2.4T tokens,涵盖图片-文本对、视频-文本对等多元数据类型 [28] - 模型已全面开源,包括技术报告、权重和评估框架 [32][33] 行业竞争格局 - 开源模型MiMo-VL-7B在内部评测中超越GPT-4o成为开源模型第一 [24] - 参数效率突破:7B模型性能比肩235B参数的Qwen3和闭源o3模型 [13][16] - 多模态赛道创新:GUI Grounding任务表现媲美专用模型 [18]
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
量子位· 2025-03-25 00:59
阿里通义千问Qwen2.5-VL-32B-Instruct发布 - 公司发布Qwen2.5-VL-32B-Instruct视觉语言模型,进一步扩充开源家族产品线[1][2] - 新模型尺寸为32B,填补了此前3B、7B和72B之间的空白,兼顾本地运行能力与性能表现[2][3] - 通过强化学习优化,模型在文本能力上达到同规模SOTA水平,部分基准测试甚至超越72B版本[4] 模型技术性能突破 - 具备精细化图像理解与推理能力,可结合时间、距离、限速等要素进行多步骤逻辑推算[5] - 数学推理能力显著提升,能完成几何角度计算等复杂问题,分步骤推导过程清晰[8][9][10][11] - 图像解析和视觉逻辑推导任务中表现出更高准确性与细粒度分析能力[5][13] 行业影响与用户反馈 - 模型已在Hugging Face平台开源,支持在Qwen Chat直接体验[14][15] - 技术社区快速响应,MLX Community已有用户成功运行[16] - Hacker News网友热议开源策略,认为此举验证了开源模式优势[17] 行业动态观察 - 公司近期与DeepSeek多次同步发布新模型,引发行业对协同策略的关注[18] - 模型发布节奏显示国内AI企业技术迭代加速,形成竞争性创新格局[1][18]