强化学习（RL） - 财报，业绩电话会，研报，新闻 - Reportify

强化学习（RL）

搜索文档

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

量子位· 2025-07-07 06:13

数学能力与模型迁移性研究 - 核心观点：数学能力强的模型不一定能将技能迁移到其他领域，强化学习(RL)训练的模型展现出显著优于监督微调(SFT)的跨任务迁移能力[1][4][19] - 数学能力与通用智能的关系：传统认知认为数学能力强的模型更智能，但最新研究表明这并非绝对[2][3] - 研究方法：评估20+模型在数学推理、其他推理(医学推理、智能体规划)和非推理任务(常识对话、指令遵循)的表现[7] - 关键指标：提出迁移能力指标(TI)，量化数学能力提升对其他任务的迁移效果(TI>0为正迁移，TI<0为负迁移)[8][9] - 实验结果：RL微调模型在数学任务平均得分达53.8，较基线提升4.1，且在其他推理任务TI达+79.6，非推理任务TI+29.3；SFT模型在非推理任务出现显著负迁移(TI最低-250.2)[10][11] - 机制分析：RL模型PCA偏移最小，KL散度更低(平均降低24.0)，token排名偏移更小，说明其能保持原有知识同时增强特定领域能力[15][16][17][18] - 行业启示：强化学习是实现可迁移推理发展的关键技术路径，对AI产品开发具有重要指导意义[19]

强化学习（RL）

监督微调（SFT）

迁移能力指标（Transferability Index

Artificial Intelligence

强化学习（RL）

监督微调（SFT）

迁移能力指标（Transferability Index

Artificial Intelligence

图像目标导航的核心究竟是什么？

具身智能之心· 2025-07-04 12:07

研究背景与核心问题 - 图像目标导航需要两种关键能力：核心导航技能（如检测自由空间、障碍物）和通过比较视觉观察与目标图像计算方向信息 [2] - 当前主流方法依赖专门的图像匹配或预训练计算机视觉模块进行相对位姿估计 [2] - 研究聚焦于是否可以通过强化学习对完整智能体进行端到端训练来解决该任务 [2] 核心研究内容与方法 - 探讨了多种架构设计对任务性能的影响，核心在于如何支持图像间的隐式对应计算 [3] - 主要架构包括Late Fusion、ChannelCat、SpaceToDepth + ChannelCat、Cross-attention [4] - 实验设计使用Habitat模拟器和Gibson数据集，动作空间包括前进、左右转向和停止 [7] - 评估指标包括成功率（SR）和SPL（成功路径长度与最优路径长度的比值） [7] 主要发现 - 早期patch级融合（如ChannelCat、Cross-attention）比晚期融合（Late Fusion）更关键，能更好支持隐式对应计算 [8] - ChannelCat（ResNet9）在Sliding=True时SR达83.6%，远高于Late Fusion的13.8% [6] - Cross-attention（DEBiT-b）在Sliding=True时SR达90.5% [6] - 低容量架构（如ResNet9）在Sliding=False时SR从83.6%降至31.7%，而DEBiT受影响较小（从90.5%降至81.7%） [8][9] - 能力迁移性：将Sliding=True训练的感知模块权重迁移到Sliding=False并微调后，SR从31.7%提升至38.5% [10][11] 导航与相对位姿估计的关联 - 导航性能与相对位姿估计性能存在相关性，DEBiT在两者上均表现最优 [12] - 导航成功率（SR）与相对位姿估计精度（误差<2m, 20°）呈正相关 [12] 结论 - 支持早期局部融合（如交叉注意力、ChannelCat）的结构对任务成功至关重要 [15] - 模拟器的Sliding设置显著影响性能，但通过迁移感知模块权重可部分迁移至真实环境 [15] - 导航性能与相对位姿估计能力相关，验证了方向信息提取的核心作用 [15] - 简单低容量架构仅通过RL训练难以成功解决图像目标导航，预训练仍不可或缺 [15]

图像目标导航

强化学习（RL）

相对位姿估计

交叉注意力（Cross-attention）

晚期融合（Late Fusion）

图像目标导航

强化学习（RL）

相对位姿估计

交叉注意力（Cross-attention）

晚期融合（Late Fusion）

ToMAP：赋予大模型「读心术」，打造更聪明的AI说服者

机器之心· 2025-06-24 14:07

大语言模型的说服能力研究 - 顶尖大模型能生成条理清晰的说服语段在Reddit等平台以假乱真但缺乏心智感知能力成为发展瓶颈 [3] - 成功说服需精准洞察对方立场和思维过程即心理学中的「心智理论」(ToM) 当前大模型在对话中缺乏心智感知导致两个缺陷：仅围绕核心论点讨论无法根据论点联系提出新角度仅重复己方观点无法因应对方态度变化调整策略 [4][6] ToMAP模型架构创新 - 引入两大心智模块：反驳预测器通过提示词激活模型预判反对观点的能力生成的反驳观点与真实被说服者语义高度相似态度预测器动态评估对方对反论点的态度倾向使用BGE-M3文本编码器与MLP分类器实现 [9] - 采用强化学习训练模型说服力得分衡量对方态度变化并引入格式奖励、重复惩罚等辅助信号优化生成质量 [11] 实验性能表现 - 基于Qwen-2 5-3B的ToMAP在CMV、Anthropic、args me数据集测试中平均说服效果达17 48 显著优于基线模型和无心智模块的RL版本超越GPT-4o与DeepSeek-R1等更大参数模型 [14] - ToMAP在10轮长对话中说服力保持稳定增长而基准模型和常规RL模型说服力随轮次增加趋于饱和或下降 [17] - 训练轨迹显示ToMAP重复度惩罚保持低位思考长度显著高于基线更倾向使用理性策略而非情绪煽动 [15][16] 技术突破与行业意义 - ToMAP首次在大模型说服任务中实现对手建模与策略灵活性通过心智模块使AI具备初步社会认知特征 [19][20] - 该框架证明小模型在适当训练和模块设计下可超越大参数模型为构建可信AI交流系统提供新思路 [14][21]

心智理论（ToM）

强化学习（RL）

反驳预测器

态度预测器

心智理论（ToM）

强化学习（RL）

反驳预测器

态度预测器

搜索智能体RAG落地不佳？UIUC开源s3，仅需2.4k样本，训练快效果好

机器之心· 2025-06-17 00:10

核心观点 - Agentic RAG 当前面临优化目标偏离、检索与生成耦合、评价标准不准确等挑战 [8][9][14] - s3 方法通过 Search-Select-Serve 范式和 Gain Beyond RAG 奖励函数，显著提升训练效率和生成效果 [1][16][17] - s3 仅需 2.4k 训练样本，在多个领域问答任务中超越数据规模大百倍的基线模型 [1][22][25] RAG 发展轨迹 - Classic RAG：使用固定 query 和 BM25 等检索器，生成器对结果无反馈 [7] - Pre-RL-Zero Active RAG：引入多轮 query 更新和 prompt 引导检索，如 IRCoT 和 Self-RAG [7] - RL-Zero 阶段：强化学习驱动检索行为，代表方法包括 DeepRetrieval 和 Search-R1 [7] 当前 RL-based Agentic RAG 的挑战 - 优化目标偏离：Exact Match 指标过于苛刻，导致模型优化答案 token 对齐而非搜索行为 [9][10] - 检索与生成耦合：无法区分性能提升来自更好的搜索还是更强的语言生成对齐能力 [11][12] - 评价标准不准确：传统 QA 指标与搜索质量关联有限，search-oriented 指标无法体现信息利用效果 [14] s3 方法设计 - 核心思想：只训练搜索器、冻结生成器，以生成结果提升为奖励 [16] - Gain Beyond RAG：衡量搜索到的上下文相比初始 top-k 检索结果是否带来真实增益 [17] - Generation Accuracy：结合 span 匹配和 LLM 判断，与人类判断一致率达 96.4% [18][32] 训练与优化 - 采用 PPO 进行策略优化，预筛除 naive RAG 能答对的样本，集中训练需要新检索信息的任务 [19][20] - 训练总时间仅需 114 分钟，比 Search-R1 的 3780 分钟大幅减少 [21][22] - 训练样本仅需 2.4k 条，比基线方法减少约 70 倍 [1][22][25] 实验分析通用 QA 任务 - s3 在五个数据集上实现最优表现，平均准确率优于 Search-R1 和 DeepRetrieval [23][24][25] - 使用不同下游 LLM（Qwen2.5-7B/14B-Instruct、Claude-3-Haiku）均展现稳定性能 [24] 医学 QA 任务 - s3 在医学领域展现强泛化能力，在 MedQA-US、MedMCQA 等数据集上优于基线 [26][27] - 使用不同语料库（Wikipedia2018 和 MedCorp）均保持稳定性能，无过拟合趋势 [27] 消融实验 - 原始问题作为检索起点有助于明确搜索目标，避免策略偏离主题 [31] - 文档选择机制减少输入 token 2.6 至 4.2 倍，提升效率并减少噪声干扰 [31] - s3 设计在准确性、训练效率和推理速度上达到最优平衡 [29][30]

Retrieval-Augmented Generation (RAG)

强化学习（RL）

生成式人工智能

Retrieval-Augmented Generation (RAG)

强化学习（RL）

生成式人工智能

揭秘LLM“思考”之谜：推理即“梯度下降”，元学习框架解构训练过程，还给优化提供新思路

量子位· 2025-06-10 04:05

RaML框架核心观点 - 大语言模型(LLM)的推理过程可类比为梯度下降优化过程，推理轨迹中的每个令牌对应参数的一次隐式更新[2] - 研究团队通过理论推导证明Transformer模型中增加的推理轨迹令牌会内化为对模型参数的更新[2] - 实证验证显示随着推理轨迹解码，模型对正确答案的置信度逐步上升，证实推理轨迹作为参数更新的合理性[4] 元学习视角下的LLM推理 - 将LLM推理训练置于元学习框架下解释，每个具体问题视为独立任务[7] - 推理轨迹承担"内循环优化"角色，动态调整内部参数适应特定任务[8] - 外循环优化基于内循环结果调整"学习策略"，形成双循环机制实现泛化能力[8] - 该框架统一解释LLM在不同训练策略、推理策略和任务泛化上的表现[9] 训练方法对比 - 有监督微调(SFT)模型相比纯强化学习(RL)模型在数学基准上表现更优[10] - SFT提供"最优梯度指导"，对较小模型收益显著(Pass@8提升31%，mG-Pass@8提升175%)[13] - RL理论上限更高但需要更强基座模型，可采用SFT+RL混合训练策略[12] 推理轨迹特性 - 更长的推理轨迹对应更好的内循环优化效果，与传统优化算法迭代次数原理类似[14] - "反思"令牌能显著改变模型置信度，帮助跳出局部最优解[15][17] - 强制结束思考过程的令牌序列可能导致模型停留在次优解[18][20] 跨任务泛化能力 - 仅在数学推理训练即可提升科学推理和代码推理任务表现[21] - 模型学习到普适推理特征，通过元学习机制快速适应新任务[23] 实践优化策略 - 增加每个问题的训练轨迹数量(相当于扩大元学习支撑集)可提升推理表现[25] - 对长推理轨迹进行摘要提炼，在保持性能同时显著降低解码开销[30] - 未来可探索更高效的推理轨迹提取方法及任务配比优化[31] 研究价值 - 为理解大模型推理提供全新视角，揭示其与元学习、梯度下降的关联[32] - 理论框架具有实践指导意义，已开源代码和论文供进一步研究[32]

大语言模型（LLM）

元学习（Meta-Learning）

有监督微调（SFT）

强化学习（RL）

QwQ - 32B模型

大语言模型（LLM）

元学习（Meta-Learning）

有监督微调（SFT）

强化学习（RL）

QwQ - 32B模型

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

机器之心· 2025-06-04 04:41

强化学习对语言模型能力的影响 - 学界长期争论RL是否能真正提升语言模型的推理能力，还是仅优化已有知识的调用效率 [1] - 过去研究多持悲观态度，认为RL收益有限且可能导致模型同质化 [1] - NVIDIA研究指出问题根源在于基础模型训练数据中数学/编程任务过度呈现，以及RL训练步数不足 [1] ProRL框架的核心创新 - 将RL训练步数从传统几百步大幅提升至2000步以上，释放小模型潜力 [3] - 采用多样化可验证奖励任务，涵盖数学/编程/科学问答/逻辑谜题等多领域数据 [5] - 引入GRPO+DAPO算法组合，通过解耦裁剪和动态采样提升训练效率 [7] - 采用KL正则化+周期性策略重置机制，有效打破训练停滞 [8] ProRL的技术突破表现 - 在逻辑谜题任务中实现pass@k 100%的突破性表现 [6] - 创造力指标(Creativity Index)显著提升，模型能生成全新解题路径 [6] - 数学任务性能提升14.7%，代码生成领先同类1.5B模型6.5%，逻辑推理准确率提升54.8% [12] - 在基础模型表现较弱的任务上，RL展现出最强的"推理边界扩展"能力 [13] Nemotron-1.5B模型的性能优势 - 在AIME24/AIME25/AMC Math等数学测试中，1.5B模型性能接近7B大模型 [10] - 在apps/CC/cf等编程任务中表现优于同类1.5B模型 [10] - 在GPOA/IFEval/Reasoning等推理任务中大幅超越7B模型，部分指标提升超过50% [10] 研究结论与行业意义 - 长期稳定的RL训练能真正扩展模型能力边界，不仅是策略优化 [15] - 小模型通过ProRL可在复杂推理任务中超越大模型，不依赖更多数据或更大参数量 [16] - 该方法为开发高推理能力、低部署成本的小语言模型提供了新路径 [17]

英伟达(US:NVDA)

强化学习（RL）

小语言模型

ProRL（Prolonged Reinforcement Learning）框架

强化学习（RL）

小语言模型

ProRL（Prolonged Reinforcement Learning）框架

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

机器之心· 2025-06-01 03:30

核心观点 - 研究发现监督微调（SFT）在多模态推理中可能阻碍学习，导致伪推理路径，而强化学习（RL）则促进真正的多模态推理 [3][9] - 传统两阶段训练范式（SFT+RL）在视觉语言模型（LVLM）中可能导致性能下降，7B模型相对性能下降47% [11][13] - 纯RL训练方案更具优势，VLAA-Thinker-Qwen2.5VL-3B模型在Open LMM推理榜单4B量级模型中位列第一，以1.8%优势刷新纪录 [15] 数据集构建 - 研究者构建了首个支持SFT与RL的全方位高质量图文推理数据集VLAA-Thinking，包含203,182条原始数据和144,895条处理后的数据 [4][5] - 数据集包含基于R1模型"先思考后回答"范式生成的完整推理链条，SFT分支包含多模态思维链样本，RL分支筛选更具挑战性的样本 [5] - 数据处理流程分为六阶段：元数据收集→图像描述生成→基于R1的知识蒸馏→答案重写→人工验证→数据划分 [6] SFT与RL对比研究 - SFT提高了模型在标准任务中的性能，但在增强复杂推理方面能力欠缺，可能诱发"伪推理路径"和"伪aha moment" [9] - 对已对齐模型使用SFT+GRPO会导致平均12.7%的性能下降，且模型规模差异影响甚微 [13] - SFT虽可帮助未对齐模型遵循指令，但其模仿式推理会限制RL阶段的探索空间 [15] GRPO训练优势 - 强化学习在增强推理能力方面表现出色，GRPO在文本数学推理任务中比其他方法更有效、更高效 [17] - 研究者提出了混合奖励框架，包含五种可验证的奖励类型，涵盖视觉感知和视觉推理任务 [19] - 直接使用GRPO训练的模型在视觉语言推理任务中显著优于其基础模型 [31] SFT对GRPO的影响 - SFT与多模态推理中的GRPO不兼容，在GRPO训练前进行SFT的模型性能比仅使用GRPO训练的模型更差，平均下降8.9% [21] - SFT对指令模型的性能损害比对没有指令跟随能力的基础模型更大，Qwen2VL-Inst性能比Qwen2VL-Base下降7.7% [21] - 较小的SFT数据集仍然会影响GRPO的性能 [23] 模型性能分析 - 响应长度、奖励分数与性能表现无显著相关性，SFT模型虽能获得更高初始奖励和更长响应，但实际表现逊于纯RL训练模型 [15][24] - SFT仅提供了RL训练的一个更高的"下限"，但可能会降低"上限"，限制了模型的探索路径 [26] - 经过更好指令调优的模型在GRPO训练后表现更佳，说明高质量的指令调优能够增强模型在强化学习后的推理能力 [31]

监督微调（SFT）

强化学习（RL）

多模态推理

视觉 - 语言大模型（LVLM）

VLAA-Thinking数据集

VLAA-Thinker-Qwen2.5VL-3B模型

监督微调（SFT）

强化学习（RL）

多模态推理

视觉 - 语言大模型（LVLM）

VLAA-Thinking数据集

VLAA-Thinker-Qwen2.5VL-3B模型

LLM加RL遭质疑：故意用错奖励，数学基准也显著提升，AI圈炸了

机器之心· 2025-05-28 08:09

大模型强化学习有效性研究 - 核心观点：虚假奖励（随机/错误信号）在Qwen-Math模型上能显著提升数学推理能力，但对其他模型无效，挑战了强化学习依赖高质量监督信号的传统认知[5][9][16] 实验发现虚假奖励效果 - 随机奖励使Qwen2 5-Math-7B在MATH-500准确率提升21%，错误奖励提升25%，接近真实奖励的28 8%增幅[5] - 仅要求答案包含`\boxed{}`格式的虚假奖励使Qwen2 5-1 5B准确率绝对提升49 9%，但损害Llama3和OLMo2性能（分别降低7 3%和5 3%）[23] 模型特异性 - 虚假奖励仅对Qwen系列有效：Qwen-Math-7B代码推理频率达65%，RLVR训练后提升至90%以上[28][34] - Llama3和OLMo2等模型无法从虚假奖励中获益，甚至出现性能下降[17][23] 机制分析预训练策略影响 - Qwen-Math通过RLVR强化了预训练已有的代码推理能力（Python代码生成频率与性能强相关）[27][34] - 虚假奖励通过GRPO裁剪触发"集中效应"，使模型聚焦现有优势策略而非学习新能力[46] 策略转换收益 - Qwen-Math从自然语言推理转向代码推理时，单问题性能提升55%（虚假奖励）至60 2%（真实奖励）[36] - 模型总增益：Qwen2 5-Math-7B提升23 5%，1 5B版本提升28 5%[37] 方法论启示 - 当前RLVR研究过度依赖Qwen模型，结论可能无法泛化至其他架构[21][25] - 建议未来研究需跨模型验证，并优先分析预训练获得的推理策略[50]

大语言模型（LLM）

强化学习（RL）

可验证奖励强化学习（RLVR）

Qwen2.5-Math-7B

Qwen2.5-Math-1.5B

大语言模型（LLM）

强化学习（RL）

可验证奖励强化学习（RLVR）

Qwen2.5-Math-7B

Qwen2.5-Math-1.5B

MiniMax开源首个视觉RL统一框架，闫俊杰领衔！推理感知两手抓，性能横扫MEGA-Bench

量子位· 2025-05-27 12:31

核心观点 - MiniMax开源V-Triune框架，首次实现视觉语言模型(VLM)在单个后训练流程中联合学习视觉推理和感知任务[1] - 基于V-Triune开发的Orsta模型系列(7B至32B)在MEGA-Bench Core基准测试中性能提升显著，最高达+14.1%[3][30] - 采用三层组件设计和动态IoU奖励机制，解决传统强化学习无法兼顾多重任务的痛点[2][22] 技术架构 - **样本级数据格式化**：支持自定义奖励设置和验证器，包含reward_model/verifier/data_source三个字段[12][13][14] - **异步客户端-服务器架构**：解耦奖励计算与主训练循环，通过专用验证器路由请求[15][17] - **数据源级指标监控**：追踪奖励值/IoU/mAP/响应长度/反思率等15项指标，确保训练稳定性[19][20][21] 动态IoU奖励机制 - 分三阶段调整阈值：初始10%步骤宽松标准，10%-25%逐步收紧，剩余步骤固定高精度要求[22][25] - 使用MathVerifyVerifier处理推理任务，DetectionVerifier处理感知任务[24] 训练优化 - 冻结ViT参数防止梯度爆炸[27] - 过滤伪图像特殊词元确保特征对齐[27] - 构建随机化CoT提示池降低提示依赖性[27] - 解耦测试阶段与主训练循环管理内存压力[27] 模型性能 - Orsta-7B在MEGA-Bench Core得分38.31，较基础模型提升+3.2[30] - Orsta-32B-0321版本得分25.94，较基础模型提升+14.1[30] - 感知任务mAP指标显著提高，验证方法有效性[30] 公司战略 - MiniMax持续布局多模态领域，已推出S2V-01视频模型、MiniMax-VL-01视觉模型及T2A-01语言模型[32][34] - Speech-02语音模型刷新全球权威测试榜单，打破行业垄断[34] - 计划探索原生生成理解统一大模型架构[35]

强化学习（RL）

多模态领域

Artificial Intelligence

强化学习（RL）

多模态领域

Artificial Intelligence

微软副总裁X上「开课」，连更关于RL的一切，LLM从业者必读

机器之心· 2025-05-26 01:28

人工智能教育系列 - 微软副总裁Nando de Freitas在X平台上发布人工智能教育系列帖子，内容涵盖LLM强化学习、扩散模型、流匹配等技术发展[1] - 该系列因内容硬核导致读者参与度下降，但仍对RL和大模型学习者具有重要价值[3][4][5] - 系列将持续更新，后续将拓展至多步强化学习等进阶内容[6][82] 机器学习范式比较 - 监督学习通过最大似然估计实现状态-行动映射，依赖高质量专家数据，是大语言模型预训练的核心原理[9] - 强化学习采用选择性模仿机制，可从次优数据中学习并超越教师，具备自我提升特性[10][13][14] - 生成模型发展是过去十年强化学习进步的主要驱动力，而非算法创新[18] 分布式强化学习系统 - 工业级LLM强化学习需处理数百万次并行交互，涉及数十亿参数模型，成本极高[23] - 现代系统采用Actor-Learner架构：Actors负责环境交互与数据收集，Learners负责策略更新[23][24] - 聊天机器人场景中，Actors是对话接口，环境是用户，Learner需更高计算资源处理梯度统计[26] 强化学习技术方法 - 单步RL针对单一动作优化，多步RL需解决信用分配问题，后者在对话系统中尤为关键[35][38][40] - 策略梯度算法通过最大化期望回报实现策略优化，包含on-policy和off-policy两种范式[47][49][51] - 基线减法和KL散度是降低方差、保持策略稳定的关键技术[56][57][67][69] 前沿优化算法 - 重要性采样通过权重修正解决off-policy数据偏差，但存在高维空间不稳定性[73][75][76] - PPO算法通过裁剪机制控制策略更新幅度，结合KL约束提升训练稳定性[78] - DeepSeek-R1采用加权方案动态调整新旧数据贡献度，形成完整强化学习解决方案[29][78]

微软(US:MSFT)

强化学习（RL）

无监督学习

近端策略优化（PPO）

强化学习（RL）

无监督学习

近端策略优化（PPO）