可验证奖励强化学习（RLVR） - 财报，业绩电话会，研报，新闻

可验证奖励强化学习（RLVR）

搜索文档

机器之心· 2025-12-21 03:01

2025年大语言模型（LLM）发展的核心观点 - 2025年是大语言模型快速演进、重磅事件密集出现的一年，行业格局发生了真正的改变[2][6] - 大语言模型正在显现出一种全新的智能形态，其既比预期的聪明得多，又比预期的愚蠢得多[37] - 大语言模型已经极其有用，但行业甚至还没有发挥出它们10%的潜力[38] 可验证奖励强化学习（RLVR）成为新标配 - 2025年初，几乎所有实验室的LLM生产训练流程都包含预训练、监督微调（SFT）和基于人类反馈的强化学习（RLHF）[8][9] - 2025年，一种新的训练阶段——可验证奖励强化学习（RLVR）——浮出水面并迅速成为事实上的标配[10] - RLVR的核心是让模型在可自动验证的环境中接受强化学习训练，模型能自发学会类似“推理”的策略，如将复杂问题拆解成中间步骤并逐步逼近答案[10] - 与SFT或RLHF这类“计算量相对较小的薄层微调”不同，RLVR使用客观、难以被投机取巧的奖励函数，使得训练可以持续非常久[10] - RLVR提供了极高的能力/成本比，大量吞噬了原本准备用于预训练的算力[10] - 2025年的大部分能力提升，并非来自模型规模的暴涨，而是来自相似规模模型加上更长时间的强化学习训练[11] - RLVR带来了新的“旋钮”：通过在推理时生成更长的思考链条、投入更多测试时算力，模型能力可以继续提升，并呈现出新的扩展定律[11] - OpenAI的o1是第一个明确展示RLVR思路的模型，而2025年初的o3则是让人直观感受到质变拐点的版本[12] 对LLM智能“锯齿状”分布的新认知 - 2025年，行业第一次真正直觉性地理解了LLM智能的“形状”，认识到其与人类智能的优化目标完全不同[14] - 大语言模型的智能被描述为“锯齿状”明显的能力分布：它们可以在某些可验证领域表现得像博学的天才，同时在另一些地方像困惑的小学生，甚至容易被攻击[14] - 这种“锯齿状”智能也解释了为何在2025年对基准测试普遍不当回事与不信任，因为基准测试本质上是可验证环境，天然容易被RLVR或“合成数据训练”所攻破[15] - 模型团队往往会在基准所在的嵌入空间附近“培育能力突起”，把能力尖刺精准地长到测试点上，“在测试集上训练”已经演变成了一门艺术[15] Cursor揭示LLM应用新范式 - Cursor在2025年的爆发清晰地揭示了一种全新的LLM应用层[16] - 像Cursor这样的LLM应用，本质是在为特定垂直领域打包和编排LLM能力，引发了关于“这一层会有多厚”的大量讨论[17] - 基础模型会趋向于“一个通用能力很强的大学毕业生”，而真正把他们组织成专业团队、在具体行业中落地的会是应用层，通过私有数据、传感器、执行器和反馈回路将模型组织并投入实际工作流程[17] - 应用层的关键功能包括：上下文工程、在后台编排多次LLM调用形成复杂的有向无环图、提供面向人的领域专用图形用户界面、提供“自主性滑块”[18] Claude Code定义本地化智能体新形态 - Claude Code被认为是第一个“真正的LLM智能体”，它以循环方式将推理与工具调用串联起来，能持续解决长任务[19] - 更重要的是，它运行在用户的本地电脑上，直接使用用户的环境、数据和上下文[20] - 在一个能力锯齿、起飞缓慢的世界里，更合理的顺序是先让智能体成为开发者身边的伙伴，Claude Code用一个极其优雅、极简、极具说服力的命令行界面形态呈现了这一点[20][21] - 这代表AI不再只是一个访问的网站，而是一个住在电脑里的伙伴，是一次全新的交互范式转变[22][23] “氛围编程”重塑软件开发 - 2025年，AI跨过了关键门槛，使得人们可以只用英语构建复杂程序，甚至忘记代码本身的存在，这被称为“氛围编程”[24][25] - “氛围编程”让编程不再只是专业工程师的专利，同时也让专业工程师可以写出大量原本永远不会被写出来的软件[27] - 代码变得不值钱、短暂存在、并可随意改写与丢弃，这正在重塑软件形态和工作角色[28][29] Nano Banana预示LLM的图形用户界面未来 - Google Gemini的“Nano Banana”是2025年最令人震撼的模型之一，它被视为构建真正LLM图形用户界面的一个早期但重要的信号[31][33] - 其意义不只在于图像生成，而在于文本、图像与世界知识在同一模型中深度纠缠[34] - 在UI/UX层面，“聊天”就像80年代的命令行，而人们更喜欢视觉化、空间化的信息，因此LLM应该用人类偏好的形式（如图片、信息图、幻灯片）进行交流[32][33]

量子位· 2025-12-20 04:20

鹭羽发自凹非寺量子位 | 公众号 QbitAI 2025都有哪些AI趋势，大神卡帕西的年终总结，正在火爆硅谷。 6大论断，硬核又颇有启发：新范式、新应用、新模型……回首望去，过去一年大模型带来的变革让人兴奋。然而卡帕西大胆预言：大模型的潜力，才刚刚挖掘10%。一切不过是刚刚开始…… 2025LLM年度回顾为什么卡帕西认为大模型潜力只挖掘了10%？一方面展现出强大的推理能力，另一方面也暴露出潜在的理解缺陷，既让人兴奋又让人谨慎，具体包括： RLVR （可验证奖励强化学习）成为训练新阶段大模型不应被类比为动物智能 Cursor展现了大模型应用的Next Level Claude Code加速端侧智能体普及 Vibe Coding将重塑软件行业 Nano Banana重塑人机交互 RLVR成为训练新阶段在年初之前，全世界的大模型都基本遵循以下训练范式：而到了2025年，RLVR开始加入其中。模型通过在可自动验证的奖励环境中进行强化学习训练，会自发地形成推理策略，比如将问题分解为中间计算、循环计算等，具体可参考 DeepSeek R1 。而这些策略如果用旧范式其实极难实现，因为大模 ...

36氪· 2025-11-17 09:52

研究核心观点 - 研究团队揭示了大模型强化学习训练中的一个关键现象：尽管强化学习能带来巨大的性能提升，但其参数更新却极为稀疏，这背后是由一种固定的模型条件优化偏差机制所驱动[1][3] - 团队提出了“三门理论”来解释RLVR训练的内在机制，阐明参数更新如何被约束、引导并最终定位到特定的参数区域[3][7] 参数更新稀疏性发现 - 对包括Qwen系列和DeepSeek-R1-Distill-Qwen在内的多个开源模型的分析显示，经过超过3000步长时间RL训练后，RL参数更新的稀疏度高达36%到92%，而监督微调的稀疏度仅为0.6%到18.8%，相差一个数量级[5][6] - 具体数据显示，Qwen3-30B-A3B模型经过GRPO算法在数学数据上训练后，稀疏度达到91.7%；而Qwen3-8B-Base模型的SFT稀疏度仅为0.6%[6] 三门理论机制解析 - 第一门KL锚定机制通过策略梯度更新的KL界限确保每步相对于当前策略的漂移很小，限制了参数的移动范围，即使在无显式KL正则项的DAPO算法中，比例裁剪技巧仍会施加O(ε²)的KL界限[8] - 第二门模型几何机制指出预训练模型具有高度结构化的几何特性，在KL约束下，RL更新倾向于保持模型的原始权重结构，自然偏向于优化景观中的低曲率方向[9] - 第三门精度过滤机制揭示bfloat16的有限精度只有7位尾数，小于单位最低位阈值的变化无法表示，导致在RL不愿施加大改变区域的微小更新被隐藏，表现为稀疏性[11] 实验验证与发现 - 通过奇异值分解分析发现，RL更新与主成分权重的重叠度始终低于随机水平，表明RL强烈倾向于避开这些权重，而与低幅度权重显示出超随机的重叠[11] - 因果性验证实验通过正交旋转和头部置换故意扰乱模型几何结构，结果显示在被干预的层中更新重叠度降至随机水平，证明预训练模型的几何结构是优化偏差的来源[13] - 光谱分析表明RLVR检查点在顶部主成分内表现出明显稳定的谱，跨层的主子空间旋转一致较小，谱漂移最小，奇异值曲线几乎与基础模型相同[14] 对参数高效微调方法的启示 - 研究发现许多SFT时代的参数高效微调方法在RLVR中迁移效果很差，仅更新主成分权重会产生最差的优化轨迹，KL曲线上升缓慢，显示过度干预和退化的训练动态[17] - 对于LoRA变体，主成分定向的PiSSA在用于匹配全参数性能的较高学习率下经常变得不稳定并提前崩溃，因为强制沿主方向更新会触及RLVR倾向于避免的高曲率区域[17]

Meta Platforms(US:META)

可验证奖励强化学习（RLVR）

三门理论（Three-Gate Theory）

模型条件优化偏差

参数高效微调（PEFT）

Qwen系列模型

DeepSeek - R1 - Distill - Qwen

可验证奖励强化学习（RLVR）

三门理论（Three-Gate Theory）

模型条件优化偏差

参数高效微调（PEFT）

Qwen系列模型

DeepSeek - R1 - Distill - Qwen

不改模型也能提升推理性能？ICLR投稿提出测试时扩展新范式OTV

量子位· 2025-10-23 00:08

文章核心观点 - 提出一种名为单token验证（OTV）的新机制，旨在不改变原始模型参数的前提下，实现对大语言模型推理过程的实时自主监控[2] - OTV通过利用模型内部的键值缓存（KV Cache）和轻量级的LoRA角色向量，使模型能够边推理边判断自身推理的正确性[8][9] - 该方法在多个模型规模和高难度数学推理数据集上的实验显示，其准确率全面领先于现有主流基线方法，并能显著降低计算开销[14][15][17] 现有主流范式的局限性 - LoRA微调虽参数高效且便于部署，但依赖详细监督数据并可能引发遗忘效应[3] - 后置验证器通过对生成结果进行质量筛选来增强可信度，但纠偏滞后且无法窥探内部推理过程[4] - RLVR（可验证奖励强化学习）节省标注成本，但流程复杂、计算代价高昂，难以普及[6] OTV机制的技术原理 - 核心是利用Transformer架构的键值缓存（KV Cache）作为完整的推理轨迹记录，捕捉模型内部动态最丰富的信息源[9] - 通过插入特殊"ToT"（Token of Truth）token，使其与整个序列的KV缓存进行注意力交互，从而回顾整条推理路径[9][11] - 内部验证器由一个LoRA实现的轻量角色向量和一个轻量回归头构成，输出0~1之间的正确性评分[9][10] OTV的训练与效率 - 训练目标以最终答案正确性为信号，为每个生成token分配启发式伪标签（正确路径得分从0.5线性增至1，错误路径递减至0）[10] - 训练流程高度并行，计算成本与传统LoRA微调相当[10] - 验证一次仅相当于模型多生成一个token的计算量，过程极其高效[9] 实验验证结果 - 在Qwen3-4B、Qwen3-8B、DAPO-Qwen-32B等模型上，使用AIME数据集测试，OTV在加权多数投票设置下稳定超越所有基线[14][15] - 具体表现为：在Qwen3-4B-Instruct-2507模型上，AIME24准确率达83.33%，AIME25达69.32%；在DAPO-Qwen-32B模型上，AIME24达70.83%，AIME25达49.58%[16] - 在高效推理设置下，OTV的"HALF 300"策略在计算量减少近90%的前提下，仍能保持最优或接近最优的准确率[17][19] OTV的优势与潜力 - 评分信号更稳定、真实且具有区分度，能清晰区分正确（红色轨迹稳定上升）与错误（绿色轨迹被压制）的推理路径[20][22][24] - 赋予模型动态控制计算开销的能力，可实时淘汰低质量路径，节省不必要的计算[17] - 未来潜力包括扩展为引入"不确定"状态的三元系统、具备安全控制潜力以终止高风险路径生成，以及推广至不同架构模型[25][26]

大语言模型推理性能提升

单Token验证（OTV）

并行思考（Parallel Thinking）

可验证奖励强化学习（RLVR）

Artificial Intelligence

单Token验证（OTV）框架

大语言模型推理性能提升

单Token验证（OTV）

并行思考（Parallel Thinking）

可验证奖励强化学习（RLVR）

Artificial Intelligence

单Token验证（OTV）框架

OpenAI路线遭质疑，Meta研究员：根本无法构建超级智能

36氪· 2025-06-20 12:00

超级智能发展路径 - 超级智能是超越AGI和人类通用能力的更高维度AI发展方向，Meta等头部公司正投入巨资追求这一目标 [1][3] - OpenAI CEO认为构建超级智能是工程问题而非科学问题，暗示已有可行路径 [1][3] - Meta研究员质疑当前主流LLM+RL路径的有效性，认为无法实现超级智能 [1][2] 技术实现争议 - 构建超级智能的三种可能路径：纯监督学习(SL)、人类验证的强化学习(RL)、自动验证器的RL [2] - 当前LLM在训练分布内任务表现持续提升，但难以发展为单一超级智能模型 [2][34] - 文本数据具有特殊价值，非文本数据(图像/视频等)尚未证明能提升模型整体性能 [6][7] 数据与规模挑战 - 互联网文本数据面临枯竭风险，行业正全力挖掘剩余数据(如转录YouTube视频) [8][19] - 模型规模扩展遭遇硬件和电力瓶颈，部分公司尝试分布式训练甚至收购核电站 [18][19] - 参数规模突破10^19的假设难以实现，当前最大模型约千亿参数级别 [17][18][19] 学习方法比较 - 监督学习(SL)面临规模扩展极限，未来3-4年可能仅能扩展10倍 [19][20] - 强化学习(RL)存在冷启动问题，需结合SL解决 [22][23] - RLVR(可验证奖励强化学习)成为新方向，OpenAI已展示在数学题上的成功案例 [32][33] 行业竞争格局 - Meta建立秘密"超级智能"实验室，投入数十亿美元资金 [3] - OpenAI、Anthropic和Google DeepMind均公开超级智能研发目标 [3] - 行业可能进入RL任务集军备竞赛，争夺最优训练环境设计 [33]

Meta Platforms(US:META)

LLM加RL遭质疑：故意用错奖励，数学基准也显著提升，AI圈炸了

机器之心· 2025-05-28 08:09

大模型强化学习有效性研究 - 核心观点：虚假奖励（随机/错误信号）在Qwen-Math模型上能显著提升数学推理能力，但对其他模型无效，挑战了强化学习依赖高质量监督信号的传统认知[5][9][16] 实验发现虚假奖励效果 - 随机奖励使Qwen2 5-Math-7B在MATH-500准确率提升21%，错误奖励提升25%，接近真实奖励的28 8%增幅[5] - 仅要求答案包含`\boxed{}`格式的虚假奖励使Qwen2 5-1 5B准确率绝对提升49 9%，但损害Llama3和OLMo2性能（分别降低7 3%和5 3%）[23] 模型特异性 - 虚假奖励仅对Qwen系列有效：Qwen-Math-7B代码推理频率达65%，RLVR训练后提升至90%以上[28][34] - Llama3和OLMo2等模型无法从虚假奖励中获益，甚至出现性能下降[17][23] 机制分析预训练策略影响 - Qwen-Math通过RLVR强化了预训练已有的代码推理能力（Python代码生成频率与性能强相关）[27][34] - 虚假奖励通过GRPO裁剪触发"集中效应"，使模型聚焦现有优势策略而非学习新能力[46] 策略转换收益 - Qwen-Math从自然语言推理转向代码推理时，单问题性能提升55%（虚假奖励）至60 2%（真实奖励）[36] - 模型总增益：Qwen2 5-Math-7B提升23 5%，1 5B版本提升28 5%[37] 方法论启示 - 当前RLVR研究过度依赖Qwen模型，结论可能无法泛化至其他架构[21][25] - 建议未来研究需跨模型验证，并优先分析预训练获得的推理策略[50]