Workflow
ROVER
icon
搜索文档
港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」
36氪· 2025-10-31 08:28
研究核心观点 - 香港科技大学联合阶跃及快手等团队提出名为ROVER的新方法,通过评估完全随机策略的价值来寻找最优推理路径,颠覆了传统强化学习依赖策略迭代的范式[1] - ROVER方法以极简主义思路实现高质量与高多样性兼备的推理生成,在多项数学推理基准上显著超越现有方法[2] - 该方法无需维护独立的价值网络或基模型计算KL散度,相比传统方法更加轻量[5] 技术优势与性能表现 - 在AIME24、AIME25及HMMT25等高难度任务上,ROVER相比传统方法大幅提高pass@1指标(提升+8.2)和pass@256指标(提升+16.8)[5] - 在Qwen3-8B-Base模型上,ROVER的pass@1在AIME24达到30.6,比最佳基线DAPO高19.1分;在HMMT25任务中,pass@1从基线最高7.1跃升至14.6,提升106%[15] - 策略多样性比基线平均提升+17.6%,在AIME24上发现更多独特解题路径[17] - 在GPQA-diamond等与数学无关的O.O.D任务上也表现最佳,展现强泛化能力[16][17] 算法创新与实现 - ROVER将大语言模型推理任务建模为有限时域马尔可夫决策过程,具备确定性状态转移、树状结构和二元稀疏奖励等关键特性[7][10] - 算法流程分为三步:Q值估计通过广义贝尔曼方程计算均匀随机策略下的状态-动作对值[11];策略构建引入基于Q值的softmax采样平衡最优性与多样性[12];训练目标将Q函数内化于LLM参数,实现自监督式参数化[13] - 采用组内奖励中心化技术降低方差,并将中心化奖励广播到生成的全序列token,实现细粒度信用分配[13] 行业影响与案例展示 - 在具体案例中,ROVER展现出更强的策略发现能力,如在"2x3网格数字排列"问题中,基模型与GRPO仅发现2种策略,而ROVER发现4种不同解题策略[20][22] - 该方法证明在结构化任务中,简化而非复杂化是推进性能的关键,为AI行业提供了新的方法论反思[23] - 论文、代码及模型均已开源,便于行业进一步研究与应用[2][3]
港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」
机器之心· 2025-10-31 04:11
研究团队与背景 - 论文第一作者为香港科技大学博士生何浩然,研究方向包括强化学习和基础模型,共同第一作者为该校一年级博士生叶语霄,通讯作者为香港科技大学助理教授潘玲 [2] 传统方法的局限性 - 在大语言模型数学推理任务中,主流强化学习方法如PPO、GRPO依赖策略梯度更新,面临训练不稳定、多样性丧失和调参复杂等问题 [2][11] - 传统方法需要维护独立的价值网络和基模型以计算KL散度,导致计算开销高昂 [9][16] - 基于奖励最大化的传统方法会使模型过度追求单次推理正确率,牺牲策略探索能力,导致pass@k性能饱和 [16] ROVER方法的核心创新 - ROVER方法通过对完全随机策略进行价值评估来找到最优推理路径,跳过了传统强化学习的策略迭代循环 [3][11] - 该方法证明在有限时域、树形状态空间和二元奖励的马尔可夫决策过程中,均匀随机策略的Q值可直接指向最优策略 [12][14] - 算法流程极简,仅包含Q值估计、策略构建和训练目标三个步骤,无需维护额外价值网络 [19][23] 性能提升表现 - 在AIME24任务上,ROVER在Qwen3-8B模型上的pass@1达到30.6,比最佳基线DAPO高出19.1分 [26] - 在HMMT25任务中,pass@1从基线最高7.1跃升至14.6,提升幅度达106% [26] - 在pass@256指标上,ROVER比传统方法提高16.8,展现持续探索能力 [9] 多样性优势 - ROVER训练的策略多样性比基线平均提升17.6%,在AIME24上发现更多独特解题路径 [29] - 在"2x3网格数字排列"问题中,基模型与GRPO仅发现2种策略,而ROVER发现4种不同解题策略 [31] - 多样性提升使ROVER在GPQA-diamond等与数学无关的O.O.D任务上也表现最佳 [30] 方法论意义 - ROVER的提出是对方法论的反思,表明在某些结构化任务中,简化而非复杂化才是推进性能的关键 [38] - 该方法以"极简主义"实现高质量与高多样性兼备的推理生成,诠释了简化设计的重要性 [4][38]