可验证强化学习（RLVR） - 财报，业绩电话会，研报，新闻

可验证强化学习（RLVR）

搜索文档

机器之心· 2025-11-08 04:02

文章核心观点 - 研究团队提出一种名为SimKO的新算法，旨在解决现有可验证强化学习方法在提升大型语言模型pass@1性能时导致pass@K性能下降的问题 [4] - 该算法通过非对称梯度调节策略，有效平衡模型对单一正确答案的“利用”能力与对多样化正确答案的“探索”能力，从而同时优化pass@1和pass@K性能 [17][21] 问题识别与分析 - 现有RLVR算法导致模型输出概率分布“过度集中”，即概率质量过度汇聚于单一的推理路径，牺牲了对多样化正确解的探索能力 [3][12][13] - 传统指标“熵”无法精确描述模型对不同推理路径的真实探索程度，因为相同熵值的分布可能具有截然不同的形态 [8][9] - 研究团队引入新分析指标，发现RLVR训练存在系统性偏差：持续强化排名第一候选词的概率，同时显著抑制其他排名较低的正确路径 [11][12] SimKO算法机制 - 算法核心是对探索token施加非对称更新策略，在正确路径上实现概率平滑，在错误路径上施加精准惩罚 [17] - 首先识别推理路径中具有高熵的关键节点token，更新策略仅应用于这些节点 [18] - 对于正确路径，实施top-K标签平滑策略，将奖励均匀分配给关键节点处概率最高的top-K个候选token [20][23] - 对于错误路径，进行非对称惩罚：对排名第一的错误候选施加显著更强惩罚，对其他排名错误候选降低惩罚强度 [20][23] 实验性能评估 - 在MATH500、AIME 2024/25等多个数学推理基准上，SimKO在Qwen2.5-Math-7B模型上相比GRPO方法，pass@1提升1.7个百分点至43.4%，pass@256提升4.4个百分点至80.5% [22] - 在Qwen2.5-7B模型上，SimKO相比GRPO在pass@1和pass@256分别提升0.5和2.0个百分点 [22] - 在Llama3.2-3B-Instruct模型上，SimKO相比GRPO在pass@1和pass@256分别提升0.7和1.3个百分点 [22] - 在逻辑推理任务中，SimKO在分布内任务上相比GRPO的pass@1提升31.6%，pass@128提升26.3%；在分布外任务上pass@1提升16%，pass@128性能达92% [24][27] 算法有效性验证 - 学习动态追踪显示，传统GRPO方法导致排名第一候选词概率迅速收敛至接近1，而其他排名候选概率降至极低水平（10⁻⁸至10⁻¹⁰） [26] - SimKO有效缓解概率集中问题，其排名第一候选词概率显著低于GRPO，同时为其他排名候选保留了更高概率质量 [26] - 概率过度集中问题与pass@K性能下降之间存在强相关性，SimKO通过缓解此问题提升了模型的探索能力 [13][26]

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力 | 上海AI Lab

量子位· 2025-08-14 04:08

AI大模型多领域推理能力研究核心观点 - AI大模型在数学、编程和逻辑推理等多领域协同训练中展现出显著性能提升，跨领域知识迁移和协同效应成为关键突破点 [1][3] - 三领域联合训练（Math+Code+Puzzle）实现整体平均性能56.57，优于任何双领域组合 [3][26][31] - 强化学习技术（RLVR）结合定制化奖励策略和课程学习等方法，可显著提升模型鲁棒性和泛化能力 [6][9][33][36] 多领域评估框架 - 构建涵盖数学（Math）、编程（Code）和逻辑谜题（Puzzle）三大类数据的评估体系，采用Qwen2.5-7B系列模型进行实验 [3][14] - 数据规模：数学领域含DeepScaleR（10k）和CountDown（10k），代码领域含CodeR1-12k（12k），谜题领域含KK（5.4k）和LPB（2.4k） [18] - 奖励机制设计采用二元0-1、比例0-1等差异化方案 [18][35] 单领域训练表现 - 数学领域：Base模型在CountDown任务准确率提升75个百分点，但过度优化可能削弱代码能力 [20] - 代码领域：Instruct模型展现更强跨域泛化能力，Base模型在域外任务普遍下降 [21] - 谜题领域：Instruct模型在KK数据集准确率达99.14，Zebra任务得分提升至36.20，且训练效果可迁移至数学任务 [22] 跨领域协同效应 - Math+Puzzle组合使数学任务表现提升至49.72（单领域47.48），Code任务在添加Puzzle或Math数据后均获提升 [25] - Puzzle+Code组合实现平均最大19.39提升，但Math+Puzzle会显著降低Code表现 [25] - 三领域联合训练避免性能塌陷，确保各任务均衡发展 [26][31] 关键技术发现 - Template一致性：Base模型使用匹配模板时平均性能达47.84，不匹配时CountDown准确率从19.36暴跌至0 [29][31] - 课程学习：Policy Refresh策略使模型在6PPL阶段达97.43准确率，最终达99.71 [33][36] - 奖励设计：二元奖励在简单任务（KK）最优，复杂任务（LPB）需格式奖励或重缩放奖励 [35][37] - 语言敏感性：中文训练模型性能低于英文训练模型 [13] 未来研究方向 - 建议拓展Science、General Reasoning等新领域数据分类，探索Llama、DeepSeek等模型适配性 [39] - 强调数据多样性对模型能力的根本性影响，需深入研究数据与RLVR的关联机制 [39]

可验证强化学习（RLVR）

多领域推理

Artificial Intelligence

Artificial Intelligence

Qwen2.5 - 7B系列模型

DeepSeek - R1