随机策略估值 - 财报，业绩电话会，研报，新闻 - Reportify

随机策略估值

搜索文档

港科提出新算法革新大模型推理范式：随机策略估值竟成LLM数学推理「神操作」

36氪· 2025-10-31 08:28

研究核心观点 - 香港科技大学联合阶跃及快手等团队提出名为ROVER的新方法，通过评估完全随机策略的价值来寻找最优推理路径，颠覆了传统强化学习依赖策略迭代的范式[1] - ROVER方法以极简主义思路实现高质量与高多样性兼备的推理生成，在多项数学推理基准上显著超越现有方法[2] - 该方法无需维护独立的价值网络或基模型计算KL散度，相比传统方法更加轻量[5] 技术优势与性能表现 - 在AIME24、AIME25及HMMT25等高难度任务上，ROVER相比传统方法大幅提高pass@1指标（提升+8.2）和pass@256指标（提升+16.8）[5] - 在Qwen3-8B-Base模型上，ROVER的pass@1在AIME24达到30.6，比最佳基线DAPO高19.1分；在HMMT25任务中，pass@1从基线最高7.1跃升至14.6，提升106%[15] - 策略多样性比基线平均提升+17.6%，在AIME24上发现更多独特解题路径[17] - 在GPQA-diamond等与数学无关的O.O.D任务上也表现最佳，展现强泛化能力[16][17] 算法创新与实现 - ROVER将大语言模型推理任务建模为有限时域马尔可夫决策过程，具备确定性状态转移、树状结构和二元稀疏奖励等关键特性[7][10] - 算法流程分为三步：Q值估计通过广义贝尔曼方程计算均匀随机策略下的状态-动作对值[11]；策略构建引入基于Q值的softmax采样平衡最优性与多样性[12]；训练目标将Q函数内化于LLM参数，实现自监督式参数化[13] - 采用组内奖励中心化技术降低方差，并将中心化奖励广播到生成的全序列token，实现细粒度信用分配[13] 行业影响与案例展示 - 在具体案例中，ROVER展现出更强的策略发现能力，如在"2x3网格数字排列"问题中，基模型与GRPO仅发现2种策略，而ROVER发现4种不同解题策略[20][22] - 该方法证明在结构化任务中，简化而非复杂化是推进性能的关键，为AI行业提供了新的方法论反思[23] - 论文、代码及模型均已开源，便于行业进一步研究与应用[2][3]

大语言模型推理

随机策略估值

大语言模型推理

随机策略估值