Workflow
Macro-to-Micro Flow (M2Flow)
icon
搜索文档
近2k star的RLinf又又又上新了!支持真机强化学习,像使用GPU一样使用你的机器人~
具身智能之心· 2025-12-26 03:38
RLinf v0.2 框架发布与核心特色 - 公司正式发布面向真机强化学习路线的RLinf v0.2版本,旨在支持与仿真路线并行的技术探索,解决具身智能领域的数据来源之争[3] - 该框架允许用户将机器人视为与GPU同层级的可配置资源,通过编写YAML配置文件即可完成模型与机器人的映射与数据通信,极大降低了使用成本[3][6] - 框架设计旨在解锁大规模分布式真机强化学习训练范式,这被视为继扩大数据规模和模型规模之后的第三条发展路径:扩大真机规模[5] 系统架构与设计理念 - 提出Macro-to-Micro Flow (M2Flow) 新一代编程范式,将上层工作流与底层计算优化解耦,以兼顾系统灵活性与高效性[7] - 系统设计支持全异构软硬件集群配置,能够灵活适配端云协同场景,例如在NUC上运行控制器、在RTX 4090上进行推理、在A800上进行训练[8][10] - 采用全异步设计,将端侧推理节点与云侧训练节点解耦,通过数据通道进行周期性同步,实现训练与推理并行,以提高训练效率[11][14] 算法支持与数据效率 - 新增支持全异步off-policy强化学习算法,包括SAC、CrossQ和RLPD等,以应对物理世界数据收集效率低的挑战[11] - 该设计特别支持人在环介入的方法,允许在训练过程中融入专家示教或实时标注数据,从而提升数据利用率[11] - 框架同时支持多种仿真器、视觉语言动作模型、自定义策略和强化学习算法,提供了广泛的技术路线兼容性[4] 实验验证与性能表现 - 基于Franka机械臂和常见物品设计了“Charger”和“Peg Insertion”两个快速验证任务进行真机实验[12] - “Charger”任务使用异步SAC算法训练,过程中约有20次人在环鼠标接管;“Peg Insertion”任务使用异步RLPD算法训练,并预先采集了20条人类操作数据[12] - 实验结果显示,两个任务均能在1.5小时内收敛,收敛后“Peg Insertion”任务可连续成功100+次,“Charger”任务可连续成功50+次[15] - 成功验证了位于不同物理空间的两台Franka机械臂同时进行真机强化学习的可行性[16][23] 开发背景与团队生态 - RLinf框架自2025年9月1日发布以来,几乎保持每两周更新一次功能的开发速度,并于2025年12月17日正式发布了面向仿真路线的v0.1版本[1] - 开发团队由清华大学、北京中关村学院、无问芯穹联合北京大学、北京航空航天大学等多单位成员组成,背景涵盖基础设施、算法和机器人领域,形成了新的科研生态[20] - 团队秉持算法与基础设施需协同演进的理念,认为基础设施应支撑算法研发,同时算法应指导基础设施的构造[20]
全异构、全异步的RLinf v0.2尝鲜版发布,支持真机强化学习,像使用GPU一样使用你的机器人!
机器之心· 2025-12-26 03:06
文章核心观点 - 公司发布了RLinf v0.2版本,这是一个面向“真机路线”的强化学习基础设施框架,旨在支持大规模分布式真机强化学习训练范式,以解决具身智能领域的数据效率与系统灵活性挑战 [2][4][9] RLinf v0.2 系统特色 - **特色1:将机器人抽象为可灵活配置的资源**:系统将机器人(Robot Node)视为与GPU(GPU Node)同层级的资源,用户只需编写YAML配置文件即可完成模型与机器人的映射对接,极大降低了使用成本 [5][6][9] - **特色2:支持全异构软硬件集群配置**:系统能够灵活配置端云协同的异构集群,例如在NUC上运行机器人控制器、在RTX 4090(24GB显存)上进行模型推理、在A800(80GB显存)上进行模型训练,以提升系统吞吐和训练效率 [11][12][13][14] - **特色3:支持全异步off-policy算法**:v0.2版本新增全异步设计,将端侧推理节点与云侧训练节点解耦,通过Data Channel进行数据同步,实现训推并行,并上线了SAC、CrossQ、RLPD等off-policy算法,以提高数据利用率和训练效率 [15][16] 实验验证与发布信息 - **实验设置**:尝鲜版基于Franka机械臂设计了两个快速验证任务:使用异步SAC算法的Charger(稠密奖励)任务和使用异步RLPD算法的Peg Insertion(稀疏奖励)任务,后者在训练前采集了20条人类操作数据作为离线数据集 [19] - **社区与开发进展**:自2025年9月1日发布以来,RLinf已拥有约2千位社区用户,并保持约每两周更新一次新功能的速度;面向仿真路线的RLinf v0.1版本已于2025年12月17日正式发布 [22] - **支持矩阵**:框架目前支持多种仿真器(如Maniskill、IsaacLab)、视觉语言动作模型(如Pi0、GR00T、OpenVLA)、自定义策略(如MLP、CNN)以及强化学习算法(如GRPO、PPO)等 [26]