随机策略估值
搜索文档
港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」
36氪· 2025-10-31 08:28
研究核心观点 - 香港科技大学联合阶跃及快手等团队提出名为ROVER的新方法,通过评估完全随机策略的价值来寻找最优推理路径,颠覆了传统强化学习依赖策略迭代的范式[1] - ROVER方法以极简主义思路实现高质量与高多样性兼备的推理生成,在多项数学推理基准上显著超越现有方法[2] - 该方法无需维护独立的价值网络或基模型计算KL散度,相比传统方法更加轻量[5] 技术优势与性能表现 - 在AIME24、AIME25及HMMT25等高难度任务上,ROVER相比传统方法大幅提高pass@1指标(提升+8.2)和pass@256指标(提升+16.8)[5] - 在Qwen3-8B-Base模型上,ROVER的pass@1在AIME24达到30.6,比最佳基线DAPO高19.1分;在HMMT25任务中,pass@1从基线最高7.1跃升至14.6,提升106%[15] - 策略多样性比基线平均提升+17.6%,在AIME24上发现更多独特解题路径[17] - 在GPQA-diamond等与数学无关的O.O.D任务上也表现最佳,展现强泛化能力[16][17] 算法创新与实现 - ROVER将大语言模型推理任务建模为有限时域马尔可夫决策过程,具备确定性状态转移、树状结构和二元稀疏奖励等关键特性[7][10] - 算法流程分为三步:Q值估计通过广义贝尔曼方程计算均匀随机策略下的状态-动作对值[11];策略构建引入基于Q值的softmax采样平衡最优性与多样性[12];训练目标将Q函数内化于LLM参数,实现自监督式参数化[13] - 采用组内奖励中心化技术降低方差,并将中心化奖励广播到生成的全序列token,实现细粒度信用分配[13] 行业影响与案例展示 - 在具体案例中,ROVER展现出更强的策略发现能力,如在"2x3网格数字排列"问题中,基模型与GRPO仅发现2种策略,而ROVER发现4种不同解题策略[20][22] - 该方法证明在结构化任务中,简化而非复杂化是推进性能的关键,为AI行业提供了新的方法论反思[23] - 论文、代码及模型均已开源,便于行业进一步研究与应用[2][3]