Workflow
强化学习
icon
搜索文档
机器人操控新范式:一篇VLA模型系统性综述 | Jinqiu Select
锦秋集· 2025-09-02 13:41
文章核心观点 - 基于大型视觉语言模型(VLM)的视觉-语言-动作(VLA)模型是机器人操控领域的变革性范式,通过语义理解和推理能力显著提升机器人在非结构化环境中的泛化执行能力 [1][4][5] - 哈尔滨工业大学(深圳)团队首次提出系统性分类法,将VLA模型划分为单体模型(Monolithic Models)和层级模型(Hierarchical Models),以解决架构多样性和研究碎片化问题 [1][6][8] - VLA模型与强化学习、免训练优化、人类视频学习和世界模型等前沿技术结合,未来方向包括记忆机制、4D感知和多智能体协作等 [1][58][91] 背景与演进 - 传统机器人操控方法依赖预定义任务规范,在非结构化环境中泛化能力有限,而VLM通过海量图文预训练跨越视觉与语言的语义鸿沟 [4][9][11] - 现代VLM(如LLaVA1.5、Qwen-VL)采用三组件架构:视觉编码器、投影器和大型语言模型,统一处理多模态任务并支持高级推理能力 [9][10] - VLA模型将机器人动作处理为文本token,与语言输出联合训练,实现语义理解能力飞跃(如RT-2相比RT-1在未见过指令任务上成功率显著提升) [12][13] 单体模型(Monolithic Models) - 单系统架构(如RT系列、OpenVLA)统一处理视觉、语言和动作生成,通过自回归解码生成动作token,参数量达70亿级别 [14][17][18] - 双系统架构(如π0、CogACT)分离快速反应的动作专家与慢速推理的VLM骨干,通过级联或并行方式协作,推理速度提升3倍以上 [15][35][30] - 性能增强方向包括3D/4D感知(如SpatialVLA、TraceVLA)、多模态融合(触觉、音频)和推理优化(动态token剪枝、1-bit量化) [21][23][31] 层级模型(Hierarchical Models) - 规划器+策略架构明确解耦高层规划与底层执行,生成可解释中间输出(如关键点、程序代码),支持长时程任务 [43][44][53] - 仅规划器方法(如Chain-of-Modality)生成可执行程序或文本指令,而规划器+策略模型(如HiRobot)通过扩散策略执行原子命令 [44][49][53] - 基于关键点的方法(如HAMSTER、RoboPoint)预测交互区域或轨迹路点,结合优化器生成动作,在7个泛化轴向上成功率提升20% [45][51][80] 前沿领域结合 - 强化学习通过密集奖励信号(如VLA-RL的RPRM模型)和离线-在线混合训练(如ReWiND)解决长时任务稀疏奖励问题 [59][60][61] - 免训练方法(如FlashVLA、EfficientVLA)通过触发机制和token复用跳过冗余计算,实现最高5倍训练加速 [62][63][64] - 人类视频学习(如UniVLA、LAPA)对齐人类-机器人交互特征,世界模型集成(如WorldVLA)通过预测未来状态优化动作规划 [65][66][68] 模型特性 - 多模态融合通过共享嵌入空间实现视觉、语言和动作的token级对齐,支持深度、触觉等模态扩展(如PointVLA集成点云数据) [69][71][73] - 指令遵循能力支持语义锚定(如ChatVLA-2理解白板数学问题)和思维链推理(如CoT-VLA预测视觉子目标) [74][76][75] - 跨领域泛化能力显著,如DexVLA实现跨机器人形态技能迁移,π0.5在分布外数据上成功率超90% [78][79][80] 数据集与基准 - 真实世界数据集(如OXE)整合22个机器人平台超100万演示,覆盖500多种技能,但长尾分布数据仍不足 [82][83][84] - 仿真基准(如BEHAVIOR、ALFRED)支持多阶段语言指令任务,CALVIN提供无约束指令下的长时程行为学习 [85][86] - 人类行为数据集(如Ego4D、EPIC-Kitchens)提供829小时密集手部追踪视频,支持精细化操作学习 [87][88] 未来方向 - 需开发融合真实世界复杂性和长期任务评估的基准,包含子任务成功率和抗干扰性等指标 [91] - 技术突破重点包括4D感知(整合深度与时间演化)、移动操作(导航与抓取协同)和多智能体协作(共享世界模型) [93][94][96] - 模型效率优化需平衡计算资源与实时需求,通过动态token剪枝和硬件友好量化降低延迟 [98]
性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA
机器之心· 2025-09-02 03:44
文章核心观点 - 通义实验室发布全新Mobile-Agent-v3开源解决方案,包含GUI-Owl模型和配套框架,在桌面、移动和Web端实现全链路GUI自动化能力 [1] - GUI-Owl-7B模型在多项基准测试中超越同类开源模型,32B版本性能接近甚至超越GPT-4o和Claude 3.7等顶级闭源模型 [1][21][29] - 通过自我进化数据生产系统和可扩展强化学习体系,实现模型在真实环境中的持续优化和稳定运行 [11][13][23][26] 技术架构创新 - 基于云环境的全链路开源解决方案,支持Android、Ubuntu、macOS、Windows多操作系统云环境基础设施 [11] - 创新性采用自我进化GUI轨迹生产链路系统,自动化生成和筛选训练数据,将人工参与降至最低 [11][13] - 通过轨迹正确性评估模块(Step-Level Critic和Trajectory-Level Critic)实现双重校验机制 [13] - 针对困难任务生成指南生成模块,通过VLM提炼关键动作描述,LLM总结成通关攻略 [14] 性能表现数据 - GUI-Owl-7B在AndroidWorld基准测试中成功率达到59.5%,超越UI-TARS-72B的14.8%和Qwen2.5-VL-72B的52.6% [21] - GUI-Owl-32B在OSWorld-Verified子集测试中达到48.4%成功率,显著超过Seed-1.5-VL的39.7%和Qwen2.5-VL-72B的38.6% [21] - 32B版本在多项评测中展现超越闭源顶级模型的实力 [29] 核心能力构建 - 极致UI元素定位能力:构建复合型Grounding数据集,融合功能、外观、布局等多维信息 [16] - 深度长任务规划与动作语义理解:从历史成功轨迹中蒸馏经验,并从Qwen3-235B等大模型中学习通用规划知识 [19] - 强大稳健推理与泛化适配能力:从Mobile-Agent-v3多智能体框架中蒸馏推理数据,学会多角色视角思考 [20] - 采用SAM对PC界面进行子区域分割,MLLM进行精细定位,解决元素密集界面定位难题 [16] 强化学习体系 - 设计可扩展的环境级强化学习体系,采用统一任务插件接口支持长短任务 [23] - 引入Trajectory-aware Relative Policy Optimization算法,解决奖励信号稀疏和延迟问题 [26] - 采用Replay Buffer机制缓存成功案例,确保模型始终获得正向反馈 [26] - 经验生成与策略更新完全解耦,优化训练效率与成本平衡 [23] 应用价值 - 单一模型即可胜任复杂单体任务与多智能体协作中的不同角色,显著降低部署和资源开销 [29] - 天然具备跨环境、跨角色泛化能力,即插即用到第三方Agent框架仍保持优异性能 [20] - 通过云端沙箱灵活性,能够快速适应并解决各类新场景下的自动化难题 [29]
XDog:具身低成本科研平台,四足机械狗+单臂(含VLA/强化学习/仿真/sim2real教程)
具身智能之心· 2025-09-02 02:00
产品定位与核心功能 - Xdog是一款低成本多功能四足机械狗+机械臂开发平台 专为具身智能开发者设计 涵盖机器狗二次开发、仿真强化学习和sim2real迁移部署等技术栈 [1] - 平台已实现语音控制、目标识别与跟踪、机械臂自主抓取、强化学习步态控制等核心功能 支持ROS1开发环境 [2] - 机械狗与机械臂通过ROS通信 机械臂和总系统由PC控制 正上方抓取高度达0.85米 基座周围抓取范围0.4米 [6][7] 硬件配置参数 - 机械狗采用蔚蓝品牌 尺寸25cm×20cm×30cm 总重7kg 配备Allwinner H616四核1.6GHz主控芯片 4G内存和32G存储 [3][4][11] - 单腿自由度3个 电池能量93.24Wh 综合续航120分钟 最大前进速度7.2公里/小时 最大旋转速度450度/秒 [5][11] - 配备SO101机械臂 采用20KG总线舵机 搭配9-12.6V输入驱动板和12V/7A电源适配器 [12] - 深度相机采用主动双目红外+结构光技术 深度分辨率1280×800@30fps 工作距离0.2-10米 RGB分辨率1080p@30fps [14] 软件与控制系统 - 支持语音控制(TCP协议)、键盘控制、视觉控制和强化自主运动等多种控制方式 [15] - 开发语言以Python为主 系统基于ROS1 推荐使用2080ti及以上显卡进行推理 [16] - 集成主流大模型实现低延迟高准确性语音交互 支持二次开发 [17] - 实现机械臂MuJoCo仿真映射、目标跟随算法协同控制和自主抓取(ACT)功能 [18][19][20] 课程体系与技术支持 - 课程涵盖ROS基础、Mujoco仿真、IsaacGym环境配置、强化学习算法(PPO/DreamWaQ)和YOLO目标识别等核心内容 [22][23] - 配备5人专业讲师团队 涵盖硬件设计、视觉算法和强化学习等领域 含港大博士生技术支持 [22] - 提供增值课程包括乐鑫开发板应用和机器人大模型语音控制系统开发 [23] 配套服务与交付 - 配套赠送专用遥控器和充电器套装 开发接口包含千兆以太网、WiFi/BT和USB2.0等 [5] - 建议配置为2080ti及以上GPU和i7及以上CPU进行二次开发 [24] - 付款后3周内完成调试交付 提供1年售后服务期 视频和源码在硬件收货后立即提供 [25][26]
大模型开始打王者荣耀了
量子位· 2025-09-02 01:40
腾讯TiG框架技术突破 - 提出Think-In-Games框架 将大语言模型直接应用于《王者荣耀》训练 实现实时游戏盘面理解与人类级别操作[1] - 仅14B参数的Qwen-3-14B模型通过TiG框架达到90.91%动作精准度 超越671B参数的Deepseek-R1模型[2] - 将强化学习决策重新定义为语言建模任务 通过语言指导策略生成与环境反馈迭代优化[3] 技术实现原理 - 大语言模型在游戏中直接行动并解释原因 弥合传统LLM只知原理与RL只知行动的鸿沟[4][5] - 主要学习人类玩家宏观层面推理能力 包括长期目标制定 团队协同策略 地图施压控制等[6] - 将决策转化为文本 通过JSON读取游戏状态 从固定菜单选择宏操作并解释原因[7] 训练方法与数据构建 - 采用多阶段训练结合监督微调与强化学习 使用GRPO算法最大化生成内容优势[12][9] - 从真实对局采样构建数据集 通过重新标注算法确保每个状态带有宏观动作标签[9] - 基于二元规则奖励机制 预测操作与人类玩法匹配时奖励为1 否则为0[11] 模型性能表现 - Qwen-2.5-32B应用GRPO后准确率从66.67%提升至86.84%[14][15] - Qwen2.5-14B经SFT+GRPO训练后准确率从53.25%提升至83.12%[14][15] - 最佳表现组合为Qwen-3-14B+SFT+GRPO(2000步) 达到90.91%准确率[2][15] 应用场景特征 - 模型扮演战略决策角色而非操作执行 类似金牌教练而非职业选手[6][7] - 具体案例显示模型能全面评估游戏状态 分析优先目标 制定策略并输出指令[8][9] - 在数据量和计算需求显著降低情况下取得与传统RL方法竞争性性能[17]
自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
机器之心· 2025-09-02 01:27
研究背景与方法 - 研究由清华大学、上海人工智能实验室、上海交通大学等机构联合完成,聚焦于利用大语言模型内部世界知识提升搜索智能体训练效率 [2][6] - 提出SSRL方法,通过结构化提示和格式奖励有效提取模型世界知识,降低幻觉并在多个基准测试中取得更好效果 [2][6][8] - 探索训练智能体无需真实环境参与的可能性,并验证接入真实搜索引擎后SSRL训练的模型表现更优,体现Sim2Real有效性 [2][8] 当前搜索智能体训练挑战 - 全真实搜索方式直接调用商业搜索引擎API或RAG本地知识库,成本高昂且与真实场景存在差距 [7][13] - 半真实搜索使用辅助LLM模拟搜索引擎行为,但训练效率低下且不稳定 [7][13] - 当前训练方式非常昂贵、耗时且不稳定,多轮工具调用导致rollout效率降低,外部信息引入易导致模型崩溃 [7][13] LLM利用世界知识的上限 - 通过formatted instruction显式利用模型内部知识,在大量模型上采样显示仅依赖内部知识即可在所有基准测试中获得明显效果提升 [10][12] - Llama-3.1-8B-Instruct在Bamboogle上pass@64达到76%正确率,在BrowseComp上pass@256达到10%正确率 [12] - 发现Llama系列在该类任务上效果远超Qwen系列,与数学领域结论相反 [12] - Majority Voting方法无法逼近模型能力上限,增加采样数量时效果不会进一步提升 [15] SSRL训练优化与设计 - 训练目标函数优化为标准GRPO目标,通过信息掩码强制模型基于查询和推理生成答案而非简单复制 [22][23] - 采用复合奖励函数结合格式奖励和结果奖励,防止奖励黑客并确保奖励有效性 [24] - 训练后模型表现优于依赖外部引擎训练的模型,训练效率提升约5.6倍且训练奖励持续增长未出现崩溃现象 [31] 实验结果 - 在Llama和Qwen2.5系列模型上训练,SSRL方法在多项基准测试中取得更好效果 [25][26] - Llama-3.2-3B-Instruct模型在HotpotQA上达到43.8%准确率,在NQ上达到58.4%,在Bamboogle上达到38.4% [26] - Llama-3.1-8B-Instruct模型在HotpotQA上达到48.0%准确率,在NQ上达到62.6%,在Bamboogle上达到54.4% [26] Sim2Real泛化 - 将前K个自搜索知识替换为在线搜索结果,发现SSRL训练模型在真实场景下表现更优 [28][29] - Llama-3.2-3B-Instruct模型在Sim2Real设置下准确率提升至41.9%,Qwen2.5-7B-Instruct提升至47.9% [33] - 随着K增加效果不会持续增长,显示模型内部知识具有高度压缩性和灵活性 [32] 熵引导搜索 - 提出熵引导搜索方法,根据模型不确定性动态选择使用内部知识或外部工具 [34] - 搜索次数减少20%-42%的同时保持可比性能,Llama-3.1-8B-Instruct模型准确率提升至41.7% [36] SSRL与TTRL结合 - SSRL与TTRL结合可获得显著效果提升,Llama-3.2-3B-Instruct模型在多项测试中准确率提升最高达67% [38][39] - 在BrowseComp任务上,Llama-3.2-3B-Instruct模型达到6.2%准确率 [40] - 但TTRL易导致模型过于自信和训练崩溃问题 [39]
维持推荐小盘成长,风格连续择优正确
2025-09-02 00:42
**行业与公司** * 行业:A股市场、量化投资、资产配置 * 公司:中金公司(量化团队)[1][2][5][8][10] **核心观点与论据** * 风格配置:9月继续推荐小盘成长风格,因市场状态、情绪端和宏观环境维度均支持其占优;8月小盘成长绝对收益16.86%[2] * 资产配置:相对看好国内股票(存在底部支撑信号),商品中性,债券谨慎[3][4] * 行业轮动:9月推荐综合金融、传媒、计算机、银行、基础化工、房地产;8月行业组合涨幅2.4%,YTD超额收益11.5个百分点[5] * 策略表现: - "成长趋势共振"策略8月收益率18.1%,连续6个月跑赢偏股混合型基金指数[7] - 小盘掘金类策略YTD收益超50个百分点,但8月表现一般(低关注度掘金7.8%、次新股掘金7.0%)[8] - XG Boost成长优选策略YTD收益率47.1%,8月收益率13.5%[8] * 模型创新: - Attention GRU周频选股策略全市场YTD跑赢基准11.7个百分点[10] - 深度学习周频选股策略全市场YTD跑赢基准43.4个百分点[10] **其他重要内容** * 风险提示:若权重股行情持续极端化,小盘策略可能阶段性失效[6][9] * 择时工具:大盘择时隐含波动率曲面情绪指标自8月1日持续看多后市[10] * 策略逻辑:行业轮动模型基于价量因子(流动性、动量、调研信息)[5],选股策略注重估值性价比和资金拥挤度[6]
端到端自动驾驶的万字总结:拆解三大技术路线(UniAD/GenAD/Hydra MDP)
自动驾驶之心· 2025-09-01 23:32
端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程:感知模块输入图像或激光雷达数据输出边界框,预测模块输出轨迹,最后进行规划[5][6] - 端到端算法直接输入原始传感器数据并输出路径点,路径点可转换为控制信号且回归相对容易[6] - 传统算法优点包括易于调试和问题定位,具有可解释性,但存在误差累积问题,无法保证感知和预测模块完全无误差[7][10] 端到端算法现有范式与局限性 - 模仿学习分为行为克隆和逆优化控制,强化学习方法在论文中较少见[11] - 评估方法分为开环评估(使用固定场景数据)和闭环评估(自车与环境存在交互)[11] - 模仿学习难以有效解决所有corner case问题,真值数据本身存在噪声,人类驾驶数据并非完全最优解[11] - 当前挑战包括可解释性问题、安全保证以及因果混淆现象,例如绿灯起步时误将旁边车道车辆起步作为启动信号[12] - 还需解决输入模态多样性、多任务学习及知识蒸馏等技术难题[12] ST-P3算法框架与创新 - 输入为环视相机图像,设计三个核心模块:感知、预测和规划,最终输出自动驾驶车辆轨迹[14] - 感知模块采用以自车为中心的累积对齐技术,预测模块通过双路预测机制实现,规划模块引入先验信息对生成轨迹进行优化[15] - 感知模块中结合预测的深度信息,采用类似LSS范式的方法得到BEV空间表示,创新点在于考虑RO角和PG角不为零的情况[18] - 预测模块采用双路结构,一路通过GRU进行递归处理,另一路引入高斯噪声进行前向迭代,两路输出融合得到T+10、T+20时刻状态特征[18] - 规划阶段利用前视相机获取红绿灯信息,并对预测轨迹进行优化,优化过程包括自车预测轨迹的代价函数和预测轨迹与真实轨迹之间的L2距离[19][20] UniAD算法框架与创新 - 采用全Transformer框架,以规划为导向构建端到端自动驾驶系统[25] - 引入五个代理任务(Head Task)通过增加任务数量提升性能,创新点在于规划导向设计[24] - Backbone部分与BVFormer相同获取BEV特征,MapFormer将Segformer的2D版本扩展至3D用于实例分割[26] - MotionFormer通过三种交互进行预测:Agent之间交互、Agent与地图交互、Agent与目标点交互,输出预测轨迹、特征及每条轨迹评分[26] - OccFormer利用MotionFormer的Agent级特征作为KV,BEV特征作为Q,计算实例级占用情况[26] - Planner输入包括自车运动轨迹特征、位置编码、OccFormer输出以及BEV特征,规划时需考虑未来占用情况确保选择可行区域[26] VAD算法矢量表征与约束 - 采用矢量化表征方法,将栅格化表征转换为矢量化形式,更好表达地图元素结构信息保持几何特性[32] - 矢量表征包含运动矢量(motion vector)和地图矢量(map vector),通过地图查询经地图变换器处理后预测地图矢量,通过智能体查询预测运动矢量[32][33] - 规划过程中引入三个主要约束:自车与他车之间碰撞约束(涉及横向和纵向距离)、自车与边界之间距离约束、自车方向约束(通过计算自车向量与车道线向量角度差确保行驶方向正确)[40] 概率化规划方法 - 规划是不确定性任务,确定性方法无法处理掉头等情况,概率化表征方法将规划流视为概率分布从而选择最优轨迹[43] - 实现借鉴类似GPT的ARP思想:初始化动作空间并离散化,规划词汇表收集4096种可能动作(如直行、加速、刹车、左转、右转等),编码后生成planning token[43] - 通过场景token与planning token交互,结合自车状态和导航信息,预测动作分布并选择概率最高的标准轨迹作为规划结果[44] GenAD生成式建模方法 - 将自动驾驶建模为轨迹生成问题,考虑自车与他车在未来帧中的交互,采用类似VAE的生成式建模思路[44] - 训练时学习轨迹分布,推理时采样分布并通过解码器生成路径点,关键点在于训练过程中构建有效的监督信号[44][45] - 训练阶段将GT的track query trajectory通过编码器编码得到latent space轨迹表征,通过解码器重构当前轨迹并与原始真值轨迹进行监督训练[45] 多模态规划与监督学习 - 引入多模态规划方法解决轨迹预测不稳定性问题,通过预测多个候选轨迹并选择最优轨迹进行模型学习[53] - 结合多模态规划与多模型学习方法,在多轨迹预测的模型学习损失基础上增加知识蒸馏损失,蒸馏损失来源于多种基于规则的教师模型[53] - 额外监督信号包括无责任碰撞、可行驶区域合规性、驾驶舒适性等指标,均纳入回归损失函数进行反向传播[56] 端到端算法当前局限性 - 主要采用模仿学习框架,作为纯数据驱动方法优化过程较为困难[57] - 难以学习到最优真值(Ground Truth),对异常案例(Counter Case)的处理能力有限[57]
开学了:入门AI,可以从这第一课开始
机器之心· 2025-09-01 08:46
AI核心概念与学习方法 - 人工智能通过机器学习从数据中自行学习规律而非依赖预设规则 核心方法包括有监督学习(使用标记数据训练模型) 无监督学习(从未标记数据中发现模式)和强化学习(通过试错和奖励机制优化行为策略) [9][12] - 2012年Google通过无监督学习使神经网络在观看海量YouTube视频后自发识别"猫"的概念 成为深度学习里程碑事件 [11] - AlphaGo击败人类棋手和ChatGPT的崛起标志着AI技术进入爆发期 深度学习依赖算力(GPU) 数据(互联网)和算法三要素共同推动 [6][69] AI技术基础能力 - 数学是AI底层逻辑的核心 线性代数处理向量与矩阵 概率统计管理不确定性 微积分通过梯度下降优化模型参数 [13] - Python是AI开发首选语言 拥有简洁语法和强大生态圈 关键工具库包括NumPy/Pandas(数据处理) Scikit-learn(机器学习) TensorFlow/PyTorch(深度学习) [19][21] - 其他编程语言各有侧重 R语言擅长统计分析 C++适用于高性能计算 Java用于企业级系统开发 [23] 实践与学习路径 - 学习过程需结合理论深度(数学) 工具掌握(编程)和实践高度(项目) 建议通过Kaggle竞赛 GitHub开源项目和复现论文等方式积累经验 [28][47][53] - 建议建立持续学习机制 关注顶级学术会议(NeurIPS/CVPR/ICML) 筛选高质量信息源 避免被技术营销内容干扰 [24][25] - 初学者可从微项目入门 如用Pandas分析天气数据 用Scikit-learn预测泰坦尼克号幸存者 逐步构建可交互的Demo展示能力 [50][51][53] AI应用领域与职业方向 - 核心职业路径包括机器学习工程师(算法落地) 数据科学家(数据洞察) 算法研究员(前沿探索) 具体职位衍生出算法工程师 AIGC工程师等细分方向 [38][40] - AI与垂直领域结合创造新价值 包括艺术设计(生成式AI创作) 金融商业(量化交易/风控) 医疗健康(新药研发/影像分析) 材料科学(分子模拟)等领域 [42][43] - AI技能将成为通识能力 未来差距体现在顶尖人才(创造AI)与普通劳动者(使用AI)之间 需注重培养解决问题能力和人机协同思维 [37][45][55] AI发展历程 - 1956年达特茅斯会议正式提出人工智能概念 早期发展形成符号主义(逻辑推理) 联结主义(模式识别) 行为主义(环境交互)三大流派 [58][64] - 经历两次AI寒冬后 统计机器学习崛起 2012年AlexNet在ImageNet竞赛中以压倒性优势夺冠 标志着深度学习时代的开启 [66][67] - 现代AI正融合三大流派优势 追求兼具学习能力 逻辑推理和行动能力的综合智能体系 [65]
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
36氪· 2025-09-01 04:38
大语言模型后训练强化学习技术演进 - 大语言模型后训练过程通过强化学习优化模型输出内容符合任务偏好 预训练使模型掌握通用语言能力 但后训练强化特定领域知识和应用能力 增强模型适应性和灵活性[5] - 强化学习核心是反馈机制 目标是增加好结果出现概率 降低坏结果出现概率 在大模型训练中采用人类反馈方式[5][8][9] PPO强化学习算法 - PPO采用近端策略优化机制 加入Critic价值函数和CLIP操作 保证策略更新不过度同时高效提升性能 成为强化学习领域标准方法之一[11] - PPO损失函数包含Critic价值函数评估相对进步程度 显著降低训练过程方差 同时采用Clip策略限制新策略相对于旧策略动作概率变化幅度 避免模型更新幅度过大[11][13] GRPO算法创新 - GRPO去除PPO中Critic价值函数 采用策略模型多次输出采样奖励平均值作为基准线 超过平均值视为正向Advantage 低于为负向Advantage 大幅降低内存需求和计算成本[14][16] - GRPO内存需求为基础模型0.5倍 训练速度比PPO快3-5倍 采用单策略网络架构 优势估计采用统计型群体投票方式[18] - GRPO存在严重稳定性问题 容易导致训练崩溃 需要大量数据降低策略梯度方差 中小规模训练中稳定性缺陷致命[18][19] DAPO算法改进 - DAPO在GRPO框架内进行工程改进 让Qwen2.5-32B模型在AIME 2024基准获得50分 优于同等规模DeepSeek模型 训练步数少50%[20] - 采用Clip-Higher机制将剪辑上下限解耦为ε_low和ε_high 增加ε_high值为低概率token留出更多空间 提升训练早期熵[21] - 实施动态采样过滤奖励为1和0的提示语 保留有效梯度样本 提高训练效率 采用Token级策略梯度损失保证长序列所有token公平贡献batch loss[21][22] GSPO范式突破 - GSPO将重要性采样从token级提升到序列级 基于整个序列似然度计算重要性比值 显著降低长序列中积累的高方差 提高训练稳定性[25][29][31] - 序列级重要性采样进行长度归一化 避免importance ratio对长度敏感造成不稳定 同一序列所有token共用同一重要性权重 裁剪时作用于整个回答而非部分token[31] - GSPO损失函数采用序列级重要性权重和clip操作 成为Qwen3强化学习核心实践框架 可能成为未来后训练强化学习新标准[25][31] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励信号问题 可同时优化多个响应属性如简洁性和准确度 避免模型响应长度大幅增加[33] - 采用显式过滤机制为每个问题采样更大候选响应组 过滤不符合目标属性响应 在所选组内使用标准奖励计算相对优势 无需复杂奖励工程[33][34] - GFPO主要干预Advantage估计层面 可与任何GRPO类似方法兼容 包括DAPO或带有Dual-Clip PPO损失的GRPO[35] GRPO其他缺陷 - GRPO存在奖励歧义性问题 多个奖励信号被合并为单一标量信号 模型无法知道具体因什么行为被奖励 即使调整不同奖励组件权重仍只能看到总奖励[39][41] - 在推理任务中 GRPO丢弃所有中间文本反馈 仅使用数值化奖励信号 文字反馈对模型有帮助但完全无法利用[43] - 多轮推理任务中每轮反馈重新输入到基础模型prompt 导致指数级分支 使GRPO在多轮任务训练变得非常困难[44]
RLinf开源!首个面向具身智能“渲训推一体化”的大规模强化学习框架
具身智能之心· 2025-09-01 04:02
文章核心观点 - 清华大学、北京中关村学院和无问芯穹联合推出面向具身智能的大规模强化学习框架RLinf 该框架通过创新的混合式执行模式、统一编程接口和自适应通信机制 在具身智能训练场景下实现系统提速超120% 模型性能提升40%-60% 同时支持数学推理大模型训练并取得SOTA性能[5][7][9][24][29] 技术架构设计 - 系统采用六层级抽象架构 包括用户层、任务层、执行层、调度层、通信层和硬件层 支持混合式执行模式[7] - 提出宏工作流到微执行流映射机制(M2Flow) 实现过程式编程灵活性与声明式编程优化能力的结合[14] - 支持三种执行模式:共享式(组件常驻或交替使用GPU)、分离式(组件流水线执行)、混合式(自定义组合放置形式)[15][17] 性能表现 - 在具身智能训练中相比分离式执行模式系统提速超120%[7][24][27] - OpenVLA模型在Maniskill3任务中成功率从SFT后的30%-50%提升至80%-90% 涨幅40%-50%[24][28] - OpenVLA-OFT在LIBERO测试平台平均成功率97.3% 相比SFT模型提升62.4%[24][26] - 1.5B数学推理模型在AIME24/AIME25/GPQA-diamond数据集分别达48.44%/35.63%/38.46% 平均40.84%[29][30] - 7B数学推理模型在相同数据集达68.33%/52.19%/48.18% 平均56.23% 均实现SOTA[29][31] 系统优化特性 - 集成两套后端:Megatron+SGLang/vLLM支持已收敛模型架构 FSDP+HuggingFace支持未收敛模型架构[21] - 自适应通信库包含四项优化:自适应CUDAIPC/NCCL通信、负载均衡传输队列、多通道并发通信、快速通信重配置[19][22][25] - 自动化调度模块支持秒级在线扩缩容 70B模型1秒完成5D并行动态扩缩[23] - 支持LoRA训练、断点续训、多可视化工具集成 正在集成SFT模块提供一站式服务[18] 应用范围 - 专门支持Vision-Language-Action Models(VLAs)+RL训练 集成OpenVLA、OpenVLA-OFT、Pi 0等主流具身大模型[24] - 支持百余类具身智能任务 涵盖CPU-based和GPU-based仿真器[24] - 率先实现Pi 0的大规模强化学习微调 相关算法将于9月底发布[24] - 框架设计具通用性 可快速支持其他非具身智能应用场景[29]