港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」
机器之心·2025-10-31 04:11

研究团队与背景 - 论文第一作者为香港科技大学博士生何浩然,研究方向包括强化学习和基础模型,共同第一作者为该校一年级博士生叶语霄,通讯作者为香港科技大学助理教授潘玲 [2] 传统方法的局限性 - 在大语言模型数学推理任务中,主流强化学习方法如PPO、GRPO依赖策略梯度更新,面临训练不稳定、多样性丧失和调参复杂等问题 [2][11] - 传统方法需要维护独立的价值网络和基模型以计算KL散度,导致计算开销高昂 [9][16] - 基于奖励最大化的传统方法会使模型过度追求单次推理正确率,牺牲策略探索能力,导致pass@k性能饱和 [16] ROVER方法的核心创新 - ROVER方法通过对完全随机策略进行价值评估来找到最优推理路径,跳过了传统强化学习的策略迭代循环 [3][11] - 该方法证明在有限时域、树形状态空间和二元奖励的马尔可夫决策过程中,均匀随机策略的Q值可直接指向最优策略 [12][14] - 算法流程极简,仅包含Q值估计、策略构建和训练目标三个步骤,无需维护额外价值网络 [19][23] 性能提升表现 - 在AIME24任务上,ROVER在Qwen3-8B模型上的pass@1达到30.6,比最佳基线DAPO高出19.1分 [26] - 在HMMT25任务中,pass@1从基线最高7.1跃升至14.6,提升幅度达106% [26] - 在pass@256指标上,ROVER比传统方法提高16.8,展现持续探索能力 [9] 多样性优势 - ROVER训练的策略多样性比基线平均提升17.6%,在AIME24上发现更多独特解题路径 [29] - 在"2x3网格数字排列"问题中,基模型与GRPO仅发现2种策略,而ROVER发现4种不同解题策略 [31] - 多样性提升使ROVER在GPQA-diamond等与数学无关的O.O.D任务上也表现最佳 [30] 方法论意义 - ROVER的提出是对方法论的反思,表明在某些结构化任务中,简化而非复杂化才是推进性能的关键 [38] - 该方法以"极简主义"实现高质量与高多样性兼备的推理生成,诠释了简化设计的重要性 [4][38]