文章核心观点 - 公司发布了RLinf v0.2版本,这是一个面向“真机路线”的强化学习基础设施框架,旨在支持大规模分布式真机强化学习训练范式,以解决具身智能领域的数据效率与系统灵活性挑战 [2][4][9] RLinf v0.2 系统特色 - 特色1:将机器人抽象为可灵活配置的资源:系统将机器人(Robot Node)视为与GPU(GPU Node)同层级的资源,用户只需编写YAML配置文件即可完成模型与机器人的映射对接,极大降低了使用成本 [5][6][9] - 特色2:支持全异构软硬件集群配置:系统能够灵活配置端云协同的异构集群,例如在NUC上运行机器人控制器、在RTX 4090(24GB显存)上进行模型推理、在A800(80GB显存)上进行模型训练,以提升系统吞吐和训练效率 [11][12][13][14] - 特色3:支持全异步off-policy算法:v0.2版本新增全异步设计,将端侧推理节点与云侧训练节点解耦,通过Data Channel进行数据同步,实现训推并行,并上线了SAC、CrossQ、RLPD等off-policy算法,以提高数据利用率和训练效率 [15][16] 实验验证与发布信息 - 实验设置:尝鲜版基于Franka机械臂设计了两个快速验证任务:使用异步SAC算法的Charger(稠密奖励)任务和使用异步RLPD算法的Peg Insertion(稀疏奖励)任务,后者在训练前采集了20条人类操作数据作为离线数据集 [19] - 社区与开发进展:自2025年9月1日发布以来,RLinf已拥有约2千位社区用户,并保持约每两周更新一次新功能的速度;面向仿真路线的RLinf v0.1版本已于2025年12月17日正式发布 [22] - 支持矩阵:框架目前支持多种仿真器(如Maniskill、IsaacLab)、视觉语言动作模型(如Pi0、GR00T、OpenVLA)、自定义策略(如MLP、CNN)以及强化学习算法(如GRPO、PPO)等 [26]
全异构、全异步的RLinf v0.2尝鲜版发布,支持真机强化学习,像使用GPU一样使用你的机器人!
机器之心·2025-12-26 03:06