Workflow
在线强化学习
icon
搜索文档
华科&小米联合提出MindDrive:首个证实在线强化学习有效性的VLA框架......
自动驾驶之心· 2025-12-17 00:03
文章核心观点 - 华科与小米团队提出了一种名为MindDrive的新型自动驾驶视觉-语言-动作框架,该框架创新性地采用在线强化学习进行训练,有效解决了传统模仿学习方法面临的分布偏移和因果混淆等挑战,并在Bench2Drive基准测试中取得了优异的性能,驾驶得分达78.04分,成功率达55.09% [2][4][8][17][34] 背景与挑战 - 当前自动驾驶视觉-语言-动作模型主要依赖模仿学习,这会导致因果混淆和分布偏移,进而在闭环驾驶中产生不可逆的误差累积 [4] - 将在线强化学习应用于自动驾驶VLA模型面临连续动作空间中探索效率低下的难题 [2] - 现有强化学习应用分为两类:在动作空间使用离线强化学习,限制了模型与环境交互探索的能力;在语言空间使用在线强化学习,但难以将驾驶决策有效映射为类人的具体驾驶轨迹 [5] MindDrive框架设计 - MindDrive的核心架构包含两个共享视觉编码器和文本分词器、但配备不同LoRA参数的大语言模型:一个作为决策专家负责场景推理和驾驶决策,另一个作为动作专家负责将语言决策动态映射为可行驶轨迹 [2][8][11] - 该框架通过将轨迹级奖励反馈至推理空间,使模型能在有限的离散语言驾驶决策集合上进行试错学习,而非直接在连续动作空间中操作,从而平衡了最优决策、类人驾驶行为与探索效率 [2][8] - 训练过程分为两个阶段:首先通过模仿学习在决策专家推断的元动作与动作专家输出的轨迹之间建立一一对应关系,为在线强化学习提供高质量候选轨迹;随后利用在线强化学习对决策专家进行优化 [8][11][18] 在线强化学习实施方案 - 基于CARLA仿真器构建了面向VLA模型的在线闭环强化学习框架,定义了明确的任务成败信号,并将过程划分为数据收集和训练两个阶段 [8] - 采用稀疏奖励函数:成功到达目的地奖励+1,触发碰撞、闯红灯等预定义惩罚事件奖励-1,其他情况奖励为0 [25][26] - 采用近端策略优化算法优化策略,并引入KL散度损失作为正则化项以缓解强化学习微调阶段的灾难性遗忘问题 [28][30][32] - 通过视觉编码器预计算场景令牌作为紧凑状态表示,降低了内存开销,支持大批量训练,并将过程表述为标准马尔可夫决策过程 [8][15] 实验结果与性能 - 在Bench2Drive基准测试中,MindDrive取得了78.04的驾驶得分和55.09%的成功率 [2][17][34] - 即使采用轻量级的Qwen2-0.5B参数模型,其驾驶得分比相同参数规模的强基线模型高出5.15分,成功率高出9.26个百分点 [2][34] - 相较于仅使用模仿学习的版本,在线强化学习使驾驶得分提升2.19分,成功率提升5.79个百分点 [34][38] - 在视觉-语言-动作范式中,MindDrive性能与使用更大规模模型的最先进模仿学习方法相当,并超越了其他离线强化学习方法 [34][38] 消融实验发现 - 逐步引入碰撞、交通灯、路线偏离、停车等惩罚事件能持续提升模型性能,最终版本相比模仿学习基准成功率提升5.79个百分点 [36] - 在线强化学习过程中,将滚动次数设为2次能取得最佳性能,过多滚动会导致灾难性遗忘和性能下降 [37] - 采用KL散度正则化的PPO算法相比基础PPO和熵正则化PPO,能更有效地稳定训练,驾驶得分分别提升3.31分和2.33分 [40] - 使用大语言模型生成的元动作作为高层指令,相比使用导航指令,驾驶得分提升7.74分;在此基础上引入在线强化学习可进一步优化元动作选择 [41] 意义与贡献 - 据研究团队所知,这是首个证实在线强化学习对自动驾驶视觉-语言-动作模型有效性的研究,也是首个在仿真器中通过在线强化学习训练的基于VLA的自动驾驶模型 [2][8][44] - 该工作为自动驾驶领域带来了新的启发,展示了通过语言接口和在线试错来提升模型因果推理与决策鲁棒性的潜力 [8][44]
聊聊在线强化学习是怎么微调π0和π0.5的?为什么性能最高能提升50%以上?
具身智能之心· 2025-11-10 03:30
文章核心观点 - 行业提出πRL开源框架 旨在解决基于流的视觉-语言-动作模型应用强化学习时面临的挑战 [5][6] - 该框架通过两种创新算法实现高效强化学习微调 在基准测试中性能提升显著 [7] - 该框架验证了在线强化学习在基于流的VLA模型中的有效性 展示了可扩展的多任务强化学习能力 [7] 技术方法与创新 - FlowNoise算法将去噪过程建模为离散时间MDP 通过可学习噪声网络实现精确对数似然计算 [7] - Flow-SDE算法将去噪过程与智能体-环境交互结合 构建采用ODE至SDE转换的双层MDP以实现高效探索 [7] - 框架在并行仿真中训练基于流的VLA模型 支持异构仿真环境下的可扩展训练 [7] 性能表现与评估 - 在LIBERO基准测试中 πRL将少样本SFT模型π0的性能从57.6%提升至97.6% [7] - 在LIBERO基准测试中 πRL将少样本SFT模型π0.5的性能从77.1%提升至98.3% [7] - 在ManiSkill的4352个抓放任务中 通过320个并行环境训练πRL 展示了多任务强化学习能力 [7]
Figma 如何战胜 Adobe 等六篇 | 42章经 AI Newsletter
42章经· 2025-10-26 13:42
Figma 与 Adobe 的竞争分析 - Figma 通过将设计的原子单位从“文件”转变为“元素”,实现了真正的实时同步协作,而 Adobe 的协作功能仍基于文件传递逻辑 [2][3] - Adobe 受限于其基于文件的历史成功路径和业务包袱,难以彻底重构产品逻辑来应对 Figma 的挑战,内部阻力极大 [3] - 类似的“最小原子单位”改变曾发生在音乐行业,从专辑到单曲的转变催生了 iTunes 和 Spotify 等全新生态系统 [4] - 该案例启发思考 AI 时代的机会:需关注 AI 是否改变了某个领域的“最小工作单位”、组织体系性质或生态系统结构 [6] AI 应用公司的竞争壁垒构建 - Cursor 通过在线强化学习(Online RL)建立高频实时反馈循环,每1.5-2小时上线新模型,将用户交互作为奖惩信号直接用于训练 [7] - 该机制使 Cursor 的代码建议量减少21%,但采纳率提升28%,标志着AI数据飞轮可能开始有效运转 [7] - 应用公司通过类似方法利用专有数据优化自身模型效果,可能成为对抗模型大厂的有效竞争手段 [7][10] Plaud 的成功要素与商业模式 - Plaud 的核心是作为“context收集器”,其价值判断在于对话是智能的体现形式,致力于捕捉和分析用户的对话context [13][14][15] - 公司采用“反过来想”的思维方式,例如从“AI服务人类”转变为“人类服务AI”,并推出AI主动提问用户的“Ask Plaud”功能 [16][17] - Plaud 确立了“世界第一”的目标,认为第二名通常只有第一名80%的性能、50%的定价能力和10%的盈利能力 [21][22] - 公司处于“发展模式”,连续两年实现十倍增长,利润率极高,无投资人压力,注重品牌品味,招聘来自奢侈品行业的人才 [23] 产品“惊喜感”(Delight)的系统化打造 - Delight 被定义为喜悦(Joy)与惊喜(Surprise)的结合,可通过超越预期、预判需求、消除阻力三个抓手实现 [25][27] - 用户分类应按动机(功能动机、个人情感动机、社交情感动机)而非传统的人口特征或行为 [27] - “愉悦感”分为三层:浅层愉悦(占比10%,仅满足情感)、低度愉悦(占比50%,仅满足功能)、深度愉悦(占比40%,同时满足功能与情感) [28][32] - 在B端市场,信任是最高级的愉悦感,例如Buffer主动为不活跃用户退款的反商业直觉操作反而提升了用户黏性 [31][33] AI 产品留存率与商业模式评估 - A16Z 提出以M3(第三个月)作为评估AI产品留存率的新基准,此时尝鲜“游客”已基本流失,数据更能反映真实PMF [34] - 新的北极星指标是M12/M3(第12个月留存用户数除以第3个月留存用户数),超过100%的“微笑留存曲线”在AI时代成为可能 [35][36] - M12/M3 >85% 跑赢市场平均线,>95% 属于前25%,>100% 为顶流水平 [39] - AI 商业模式变化:定价转向基于使用量或结果;存在从个人用户到企业客户的自下而上渗透路径,建议尽早加入团队协作功能并考虑ToB业务 [40][41] Palantir 的 FDE 模式及其在 AI 时代的应用 - FDE 是驻扎客户现场的工程师,核心是“产品探索”,通过定制化解决方案满足客户需求,并将解法抽象沉淀为通用产品功能 [45][46] - FDE 团队关键角色:Echo(来自客户行业的咨询分析师,挖掘痛点)和 Delta(快速原型开发的部署工程师) [46][49] - 该模式适用于产品和市场极度不明确的场景,在AI时代爆发因合同金额大(数百万至上亿)且产品形态不确定,需一线共创 [52][53] - FDE 模式的精髓是“规模化地做那些不规模的事”(doing things that don't scale at scale),是YC建议的进阶版 [53]
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
36氪· 2025-10-24 12:45
技术框架与核心创新 - AgentFlow是一种通过在线强化学习持续优化智能体系统的新范式,由规划器、执行器、验证器、生成器四个专业智能体通过共享内存协作 [1] - 其核心创新Flow-GRPO算法能在智能体交互的“流”中对规划器进行实时在线策略优化,实现决策过程的自适应进化 [1][14] - Flow-GRPO通过将轨迹最终结果的成功或失败信号广播至每一步,将复杂的多轮强化学习问题转化为可处理的单轮策略更新,缓解了奖励稀疏问题并提升训练效率 [15] 性能表现与基准测试结果 - 以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在10个基准测试中表现突出:搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1% [4][19] - 该7B参数模型在多项任务上超越了规模大50倍的模型,如在搜索任务上领先GPT-4o约8.2%,在智能体任务上领先15.8% [21] - 配备Flow-GRPO的AgentFlow在搜索密集型任务上平均得分达57.3,在数学推理任务上平均得分达51.5,显著优于其他基准方法 [19][23] 技术优势与行业影响 - 该框架表明合理的系统设计和训练方法可能比单纯堆叠模型参数更有效,展现了“以小搏大”的潜力 [21] - 对比实验显示,采用离线监督学习训练规划器会导致性能平均下降19%,凸显了在真实交互环境中进行在线学习的必要性 [22] - 经过训练的系统能自主发现新的工具使用模式,如组合使用不同搜索工具,这些模式在未训练的推理流中几乎未出现 [25] - 业界观点认为多智能体流类似于“相位耦合推理”,并期待“协同能力”取代“规模”成为衡量智能的新指标 [6]
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
量子位· 2025-10-24 03:53
文章核心观点 - AgentFlow是一种通过在线强化学习优化智能体系统的新范式,其核心创新在于由四个专业化智能体通过共享内存协作,并利用Flow-GRPO算法对规划器进行实时优化,从而显著提升复杂问题的推理能力[1] - 基于Qwen-2.5-7B-Instruct小模型的AgentFlow在多项基准测试中表现卓越,甚至在部分任务上超越了参数规模大50倍的GPT-4o(约200B)和Llama3.1-405B等超大模型,证明了通过系统设计和训练方法创新可以实现“以小搏大”[3][4][23][27] - 实验结果表明,“在流中学习”(在线优化)是实现高效推理的关键,对比离线监督学习(SFT)性能平均降低19%,而Flow-GRPO训练能使系统自主发现新的工具使用模式并动态调整推理深度,展现出更强的适应性和稳定性[28][29][33][35] 技术框架与创新 - AgentFlow框架由四个具备记忆能力的专门化智能体组成:规划器(分析任务、选择工具)、执行器(调用工具)、验证器(评估中间结果)和生成器(生成最终答案),它们通过共享内存进行协作[14][17][18] - 关键技术创新是Flow-GRPO算法,该算法通过将轨迹最终结果的成功或失败信号广播至每一步,将复杂的多轮强化学习问题转化为可处理的单轮策略更新,有效解决了长时跨度、奖励稀疏条件下的多轮信用分配挑战[20] - 系统实现了“流中强化学习”,规划器能在智能体交互过程中根据环境变化及其他智能体的反馈进行实时on-policy优化,决策过程随之自适应进化,优化结果被整合到系统记忆形成闭环[16][19] 性能表现与基准测试 - 在10个基准测试中,以7B参数模型为基础的AgentFlow相比基线在搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%[3][25] - 具体数据表现:在搜索密集型任务(Bamboogle、2Wiki、HotpotQA、Musique)上,AgentFlow(w/ Flow-GRPO)平均得分达57.3,显著高于GPT-4o的49.1;在智能体任务(GAIA)上得分为33.1,高于GPT-4o的17.3[26][27] - 在数学推理任务(AIME24、AMC23、GameOf24)上,AgentFlow(w/ Flow-GRPO)平均得分达51.5,超越GPT-4o的35.1;在科学推理任务(GPQA、MedQA)上平均得分为63.5,也高于GPT-4o的45.5[26] 行业意义与影响 - 该研究标志着智能体系统的发展重点可能从单纯追求模型参数规模转向更注重合理的系统设计、专业化智能体协作以及持续在线学习能力,为行业提供了新的发展思路[27][37][38] - 多智能体流(multi-agent flow)所体现的“协同能力”有望取代“规模”成为衡量智能的新指标,模块化协作与流中强化学习的结合为构建更稳定、高效的多轮智能体系统提供了可行路径[9][30] - 尽管从研究到实际应用仍有距离,但AgentFlow展示了智能体AI在复杂决策与持续优化方面的巨大潜力,为垂直领域与通用场景的智能体应用开辟了新的想象空间[39]
GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o
量子位· 2025-09-23 11:01
核心观点 - 浙江大学与通义实验室Mobile-Agent团队提出UI-S1框架 采用半在线强化学习训练范式 显著提升GUI智能体在动态多轮任务中的表现 在AndroidWorld任务中达到34.0%成功率 接近GPT-4o的34.5% [1][2][25] - 该方法融合离线训练稳定性与在线学习长程优化能力 通过模拟在线交互过程 在不依赖真实环境交互的前提下提升模型连贯性与推理能力 [2][4][9] - 创新性体现为三大核心技术:半在线机制模拟在线交互 补丁机制修复采样偏差 长程奖励建模捕获轨迹级优势 [10][12][20] 技术架构创新 - 半在线机制在离线数据中保留模型自身原始输出(动作选择与思维链) 使模型感知历史行为并调整后续决策 增强策略一致性与多轮连贯性 [14][15][16] - 补丁机制提供三种可配置策略:Thought-Free Patch仅修正动作 On-Policy Thought Patch引导模型生成正确推理 Off-Policy Thought Patch调用外部模型重写思维链 [17][18] - 长程奖励建模引入折扣因子γ(最优值为0.5) 结合未来步骤潜在价值形成综合奖励 弥补传统离线RL无法捕获未来收益的缺陷 [20][21][43] 性能表现 - 在AndroidWorld任务中UI-S1-7B达到34.0%成功率 较基础模型提升+19.1个百分点 接近GPT-4o(34.5%)且优于UI-TARS-7B(33.0%) [25][27] - 单轮任务保持优势 GUI Odyssey任务较基础模型提升+7.1个百分点 证明未牺牲局部精度 [27][28] - 动态评测指标SOP与真实在线性能高度对齐 支持更高任务多样性和更快评估速度 [23] 机制有效性验证 - 提高补丁阈值显著提升性能:当阈值从0增至8时 AndroidWorld得分从21.0提升至34.5 [31] - On-Policy Thought Patch性能最优但计算开销大 Thought-Free Patch性价比最高且接近最优性能 [32][33] - 较高补丁阈值维持策略熵 避免过早收敛 促进探索多样性 [19][35][36] 数据与扩展性 - 性能增长符合指数型数据规模律 补丁阈值从0增至无穷时指数系数k从-1.13提升至-0.73 表明单位数据边际收益改善 [38][39][40] - 联合使用SFT与半在线RL效果最优 AndroidWorld任务成功率34.0% 分别高于单独使用Semi-online RL(30.4%)和SFT(21.7%) [27][44]
全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代
机器之心· 2025-09-21 05:26
文章核心观点 - 明略科技推出的专有GUI大模型Mano在行业公认的Mind2Web和OSWorld两大基准测试中均取得创纪录的SOTA成绩,为GUI智能体领域提供了可扩展、可持续进化的新范式 [1][7][14] - Mano模型通过在线强化学习和训练数据自动采集两大核心创新,实现了在复杂图形用户界面交互性能上的重大突破 [23][32][48] - 该技术突破使Mano能够高效执行网页操作与数据采集任务,为企业智能化转型提供支持,并成为公司在AI Agent领域差异化竞争的关键 [63][64][66] 技术性能表现 Mind2Web基准测试表现 - 在Mind2Web基准测试中,Mano-7B模型在元素精度(Ele.Acc)指标上达到80.8%,在步骤成功率(Step SR)指标上达到73.9%,显著超越所有SOTA方法 [17][18] - Mind2Web覆盖137个网站、2350+真实任务,涵盖填写表格、订机票、在线购物等复杂操作场景 [15] - 在跨任务、跨网站、跨领域三个关键维度上,Mano-7B均表现优异,特别是在跨网站场景中步骤成功率达到68.3% [17] OSWorld基准测试表现 - 在OSWorld-Verified榜单的Foundation E2E GUI & Specialized Model评测中,Mano取得40.1%的成功率,仅在一次运行中就刷新纪录 [2][10] - OSWorld涵盖369个跨应用任务,覆盖10类应用,包括浏览器和办公软件,被认为是桌面智能体测评的"珠峰" [18][20] - 在Max Steps=100配置下,Mano经过2次运行后平均成功率提升至41.6±0.7%,较UI-TARS-7B的27.4±2.2%提升约7个百分点 [19][21] 技术创新突破 在线强化学习技术 - Mano在GUI交互领域首次提出在线强化学习训练范式,构建了GUI领域强化学习的新范式 [23][32] - 技术团队建立模拟环境池,让模型与真实环境交互,包括浏览器环境(BUA)和桌面环境(CUA) [37] - 采用在线采样+离线过滤的方式,先收集轨迹再过滤噪声数据,动态调节任务难度分布,避免学习效率低下问题 [40] - 消融实验显示,增加在线强化学习步骤后,模型在OSWorld数据集上的平均分数从33.7提升至41.6,提升7.9个点 [44][45] 训练数据自动采集 - 技术团队设计了训练数据自动采集方法,搭建可扩展的虚拟环境集群模拟多种交互场景 [49] - 为网页环境定制Chrome插件"Mano-C",全面提取网页中的交互元素,捕捉空间坐标与语义属性 [50] - 采用深度优先搜索(DFS)策略进行探索,最大深度设为10层,在探索覆盖率和计算效率间取得平衡 [53] - 利用大语言模型为每个提取元素生成语义标签、功能描述及交互类别,形成结构化语义对齐数据 [51] 行业应用价值 - GUI智能体市场热度高涨,在2025外滩大会和财新亚洲愿景论坛上成为最高频热词 [4] - 真正有用的Agent必须学会使用手机和电脑,像人一样读懂并操作GUI界面 [4][7] - Mano作为差异化竞争关键角色,能够访问其他同类Agent无法触及的数据源,如需要手动登录设置条件才能获取的专业网站数据 [61][63] - 该技术能够大幅降低传统自动化方案在应对业务变更时的适配与维护成本 [66]
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o
机器之心· 2025-05-13 07:08
核心观点 - 流匹配模型在复杂场景和文本渲染任务中存在困难,在线强化学习在图像生成领域应用仍处于初步阶段 [1] - Flow-GRPO 是首个将在线强化学习引入流匹配模型的工作,显著提升模型性能 [2] - Flow-GRPO 通过 ODE-SDE 等价转换和去噪步数减负两项关键策略提升训练效率 [6][8] - Flow-GRPO 在 GenEval 基准测试中准确率从 63% 提升到 95%,超越 GPT-4o [14] - Flow-GRPO 为流匹配模型在可控性、组合性和推理能力方面开辟了新范式 [23] 核心思路与框架概览 - ODE-SDE 等价转换:将确定性 ODE 转换为随机 SDE,为 RL 提供探索空间 [8][9] - 去噪步数减负:训练时减少生成步数(40 步减到 10 步),推理时保持完整步数,提升训练效率 [8][12] 核心实验效果 - 复杂组合生成能力大幅提升:GenEval 基准上 SD3.5-M 准确率从 63% 提升至 95% [14] - 文字渲染精准无误:视觉文本渲染准确率从 59% 提升至 92% [19] - 人类偏好对齐任务取得显著进步,图像质量和多样性未受影响 [21] 总结与展望 - Flow-GRPO 揭示了利用在线强化学习持续提升流匹配模型性能的可行路径 [23] - 为图像、视频、3D 等多模态生成任务提供了新范式 [23]