有监督微调（SFT） - 财报，业绩电话会，研报，新闻

有监督微调（SFT）

搜索文档

NeurIPS 2025｜清华团队分析RL将如何提升VLA泛化性

具身智能之心· 2025-10-15 04:00

研究背景与核心观点 - 视觉-语言-动作大模型在具身智能领域潜力巨大，但当前主流的有监督微调方法在面对新环境或任务时泛化能力有限 [1] - 清华大学研究团队首次系统性揭示了强化学习在提升VLA模型泛化能力上的独特优势，并提出了全面的评测基准和高效训练方法 [1][3] - 强化学习微调VLA模型能显著提升语义理解和任务执行的鲁棒性，在视觉变化场景下保持与有监督微调相当的表现 [3] 研究方法与模型基础 - 研究采用目前最先进的开源OpenVLA模型为基础，该模型从Llama2-7b微调而来，接收RGB图像和指令，输出离散动作token控制机械臂 [4][6] - 团队构建了涵盖视觉、语义和执行挑战的全新评测基准，系统对比强化学习和有监督微调在泛化性上的表现 [3][19] 强化学习方法比较 - 测试了三种在大语言模型领域广受认可的强化学习算法：PPO、DPO和GRPO [8] - 在机器人控制这一多步决策任务中，经典的PPO算法展现出显著优势，而专为语言模型设计的DPO和GRPO难以高效学习 [15] - PPO的优势源于机器人任务的部分可观测马尔可夫决策过程特性，每个动作都会改变环境状态的非平稳性可能破坏了GRPO的优势估计稳定性 [15] - DPO面临的挑战在于稀疏奖励结构难以区分轨迹质量，以及离线数据与在线执行之间存在显著的分布偏移 [15] 高效PPO训练方案 - 提出共享Actor-Critic架构设计，让Actor和Critic共享同一个主干网络，仅添加轻量级MLP作为价值头，使显存占用减少45%，训练速度提升35% [12] - 使用140条高质量轨迹对模型进行预热，让后续的强化学习收敛速度提升50%，大幅减少所需的环境交互次数 [14] - 将PPO训练轮次设为1就已足够，更多更新轮次无法提升性能反而增加训练时间，整个训练过程在单张A100 GPU上仅需42小时即可收敛 [14] 有监督微调与强化学习性能对比 - 有监督微调在演示轨迹数量达到16,000条时性能趋于饱和 [17] - 强化学习在训练分布内任务性能与有监督微调相当，但在分布外任务上取得了42.6%的性能提升，展现出更强的泛化性 [18] - 强化学习在语义理解任务上表现出明显优势，特别是在处理未见物体的抓取任务时 [21] - 在执行鲁棒性方面强化学习大幅领先，无论是物体位置变化、机器人初始姿态偏移，还是任务执行中途的物体移位，都展现出显著更强的适应能力 [21] - 在视觉泛化上，两种方法表现相当 [21] 案例分析与深层差异 - 在强噪声干扰下，有监督微调策略会在抓取物体后反复掉落，而强化学习策略能够稳定完成任务 [23] - 面对未见物体时，有监督微调容易陷入重复尝试抓取已持有物体的死循环，强化学习则能正确判断并完成放置 [23] - 强化学习探索了更广阔的工作空间和更丰富的末端执行器姿态，而有监督微调的轨迹紧密聚集在演示数据的运动规划路径周围，这种更广泛的覆盖解释了强化学习在执行任务上的优越泛化能力 [23]

RL 将如何提高具身大模型 VLA 泛化性？清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心· 2025-10-12 02:41

研究背景与核心问题 - 视觉-语言-动作大模型面临关键挑战：当前主流的有监督微调训练方式在遇到新环境或任务时容易出错，难以实现类人般的泛化能力 [2] - 研究核心问题：探索强化学习能为VLA带来哪些独特的泛化优势，并与有监督微调进行系统性对比 [2] - 清华大学研究团队在NeurIPS 2025发表文章，首次系统性揭示强化学习在提升VLA泛化能力上的独特优势 [2] 研究方法与实验设计 - 研究团队构建了涵盖多种视觉、语义和执行挑战的全新评测基准，系统对比强化学习和有监督微调在提升模型泛化性上的表现 [4] - 采用目前SoTA之一的开源OpenVLA模型为基础进行研究，该模型从Llama2-7b微调而来，接收RGB图像和指令，输出离散动作token控制机械臂行动 [7] - 测试三种在大语言模型领域广受认可的强化学习算法：PPO、DPO和GRPO [9] 强化学习方法比较结果 - 在机器人控制这一多步决策任务中，经典的PPO算法展现出显著优势，而专为语言模型设计的DPO和GRPO难以高效学习 [11] - PPO优势源于机器人任务的部分可观测马尔可夫决策过程特性，每个动作都会改变环境状态，这种非平稳性可能破坏了GRPO的优势估计稳定性 [11] - DPO面临的挑战在于稀疏奖励结构难以区分轨迹质量，以及离线数据与在线执行之间存在显著的分布偏移 [11] 高效PPO训练方案 - 共享Actor-Critic架构设计：让Actor和Critic共享同一个主干网络，仅在最后添加轻量级MLP作为价值头，显存占用减少45%，训练速度提升35% [13] - VLA模型预热策略：使用140条高质量轨迹对模型进行预热，让后续的强化学习收敛速度提升50%，大幅减少所需环境交互次数 [15] - 最小化PPO训练轮次：将PPO训练轮次设为1就已足够，更多更新轮次无法提升性能反而增加训练时间，整个训练过程在单张A100 GPU上仅需42小时即可收敛 [15] SFT与RL性能对比 - 有监督微调在演示轨迹数量达到16,000条时性能趋于饱和，无论是训练分布内还是分布外新物体/桌面的性能都达到上限 [18] - 强化学习在收敛时训练分布内任务性能与有监督微调相当，但在分布外任务上取得42.6%的性能提升，展现出更强的泛化性 [19] - 基于ManiSkill仿真器构建全面评测基准，从视觉、语义和执行三个维度系统地对泛化能力进行拆解 [21] 泛化能力具体表现 - 强化学习在语义理解任务上表现出明显优势，特别是在处理未见物体的抓取任务时 [23] - 在执行鲁棒性方面大幅领先，无论是物体位置变化、机器人初始姿态偏移，还是任务执行中途的物体移位，强化学习都展现出显著更强的适应能力 [23] - 在视觉泛化上，两种方法表现相当 [23] 深层差异与影响 - 在强噪声干扰下，有监督微调策略会在抓取物体后反复掉落，而强化学习策略能够稳定完成任务 [26] - 面对未见物体时，有监督微调容易陷入重复尝试抓取已持有物体的死循环，强化学习则能正确判断并完成放置 [26] - 执行轨迹分布差异：强化学习探索了更广阔的工作空间和更丰富的末端执行器姿态，而有监督微调的轨迹紧密聚集在演示数据的运动规划路径周围 [26] - 强化学习在构建真正通用的具身智能体中具有核心价值，能够通过试错学习、自主适应新环境的能力在复杂多变的应用场景中愈发重要 [25]

Artificial Intelligence

Artificial Intelligence

OpenVLA 大模型

揭秘LLM“思考”之谜：推理即“梯度下降”，元学习框架解构训练过程，还给优化提供新思路

量子位· 2025-06-10 04:05

RaML框架核心观点 - 大语言模型(LLM)的推理过程可类比为梯度下降优化过程，推理轨迹中的每个令牌对应参数的一次隐式更新[2] - 研究团队通过理论推导证明Transformer模型中增加的推理轨迹令牌会内化为对模型参数的更新[2] - 实证验证显示随着推理轨迹解码，模型对正确答案的置信度逐步上升，证实推理轨迹作为参数更新的合理性[4] 元学习视角下的LLM推理 - 将LLM推理训练置于元学习框架下解释，每个具体问题视为独立任务[7] - 推理轨迹承担"内循环优化"角色，动态调整内部参数适应特定任务[8] - 外循环优化基于内循环结果调整"学习策略"，形成双循环机制实现泛化能力[8] - 该框架统一解释LLM在不同训练策略、推理策略和任务泛化上的表现[9] 训练方法对比 - 有监督微调(SFT)模型相比纯强化学习(RL)模型在数学基准上表现更优[10] - SFT提供"最优梯度指导"，对较小模型收益显著(Pass@8提升31%，mG-Pass@8提升175%)[13] - RL理论上限更高但需要更强基座模型，可采用SFT+RL混合训练策略[12] 推理轨迹特性 - 更长的推理轨迹对应更好的内循环优化效果，与传统优化算法迭代次数原理类似[14] - "反思"令牌能显著改变模型置信度，帮助跳出局部最优解[15][17] - 强制结束思考过程的令牌序列可能导致模型停留在次优解[18][20] 跨任务泛化能力 - 仅在数学推理训练即可提升科学推理和代码推理任务表现[21] - 模型学习到普适推理特征，通过元学习机制快速适应新任务[23] 实践优化策略 - 增加每个问题的训练轨迹数量(相当于扩大元学习支撑集)可提升推理表现[25] - 对长推理轨迹进行摘要提炼，在保持性能同时显著降低解码开销[30] - 未来可探索更高效的推理轨迹提取方法及任务配比优化[31] 研究价值 - 为理解大模型推理提供全新视角，揭示其与元学习、梯度下降的关联[32] - 理论框架具有实践指导意义，已开源代码和论文供进一步研究[32]