Workflow
主动式强化学习
icon
搜索文档
14B打败671B,微软rStar2-Agent在数学推理上超过DeepSeek-R1
36氪· 2025-09-02 07:36
模型性能突破 - 微软研究院开发的rStar2-Agent-14B模型仅14B参数规模,在数学推理基准测试中达到前沿性能,超越671B参数的DeepSeek-R1模型[2][17] - 该模型在AIME24测试中准确率达到80.6%,分别超过o3-mini (medium)、DeepSeek-R1和Claude Opus 4.0 (thinking) 1.0%、0.8%和3.6%[19] - 在AIME25和HMMT25测试中分别取得69.8%和52.7%的准确率,展现稳定一致的强大推理能力[18][19] 技术创新亮点 - 采用主动式强化学习方法,使模型能够与Python编程工具环境交互,通过反馈信号进行推理验证和学习[1][6] - 构建高吞吐量代码执行环境,支持45K个并发工具调用,平均反馈时间仅0.3秒[10] - 提出GRPO-RoC训练算法,通过非对称采样保留故障模式作为负向信号,同时强调高质量成功案例[12][14] - 采用负载均衡调度程序动态分配GPU资源,在64块MI300X GPU上仅用一周完成训练[10][12] 训练效率优势 - 仅需510个强化学习步骤即可实现前沿数学推理能力,大幅降低训练成本[16] - 采用多阶段强化学习训练,将每个阶段长度限制在8K→12K范围,避免大规模扩展至16K→48K[15] - 从非推理SFT阶段开始训练,避免过拟合并保持初始响应简短,使强化学习更有效培养推理能力[14] 泛化能力表现 - 尽管仅使用数学领域训练,在GPQA-Diamond科学推理基准上以60.9%准确率超越DeepSeek-V3的59.1%[22] - 在BFCL v3智能体工具使用任务达到60.8%准确率,在IFEval和Arena-Hard通用基准测试中分别取得83.4%和86.6%的竞争力表现[22]
14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek-R1
机器之心· 2025-09-02 01:27
核心观点 - 微软研究院开发了rStar2-Agent主动式强化学习方法,通过高效基础架构、GRPO-RoC算法和优化训练方案,使14B参数模型在数学推理任务上达到或超越671B参数模型的性能 [2][12][25] 环境与问题描述 - 研究使用Python编程工具和解释器作为环境,拓宽模型行动空间并支持中间步骤验证 [6][9] - 环境复杂性引入噪声,错误代码导致反馈延迟和token浪费,仅结果奖励机制加剧低质量推理轨迹问题 [9] - 大规模训练需处理数万个并发工具调用,对基础设施要求极高 [9][10] 技术方案创新 - 构建高吞吐量代码环境,支持45K并发工具调用且平均反馈时间仅0.3秒 [14] - 采用动态负载均衡调度程序,根据GPU键值缓存容量分配请求以提升计算利用率 [15] - 提出GRPO-RoC算法:通过非对称采样保留故障模式作为负向信号,筛选高质量正向轨迹 [16][18] - 训练方案从非推理SFT开始,避免过拟合并保持响应简短,后续通过多阶段强化学习逐步提升难度 [21][22] 性能表现 - rStar2-Agent-14B在AIME24准确度达80.6%,超越o3-mini(medium)1.0%、DeepSeek-R1 0.8%和Claude Opus 4.0 3.6% [26] - AIME25准确度69.8%,HMMT25达52.7% [26] - 平均响应长度显著缩短:AIME24仅9339.7 token(对比DeepSeek-R1-Zero的14246.8 token) [29] - 泛化能力强:GPQA-Diamond科学推理达60.9%(超越DeepSeek-V3),BFCL v3工具使用任务60.8% [29] 训练效率 - 使用64块MI300X GPU一周完成训练 [16] - 仅需510个强化学习步骤达到前沿性能,远低于同类方法(如MiMo需175K步骤) [23][24]