RLinf - 财报，业绩电话会，研报，新闻

RLinf

搜索文档

近2k star的RLinf又又又上新了！支持真机强化学习，像使用GPU一样使用你的机器人~

具身智能之心· 2025-12-26 03:38

RLinf v0.2 框架发布与核心特色 - 公司正式发布面向真机强化学习路线的RLinf v0.2版本，旨在支持与仿真路线并行的技术探索，解决具身智能领域的数据来源之争[3] - 该框架允许用户将机器人视为与GPU同层级的可配置资源，通过编写YAML配置文件即可完成模型与机器人的映射与数据通信，极大降低了使用成本[3][6] - 框架设计旨在解锁大规模分布式真机强化学习训练范式，这被视为继扩大数据规模和模型规模之后的第三条发展路径：扩大真机规模[5] 系统架构与设计理念 - 提出Macro-to-Micro Flow (M2Flow) 新一代编程范式，将上层工作流与底层计算优化解耦，以兼顾系统灵活性与高效性[7] - 系统设计支持全异构软硬件集群配置，能够灵活适配端云协同场景，例如在NUC上运行控制器、在RTX 4090上进行推理、在A800上进行训练[8][10] - 采用全异步设计，将端侧推理节点与云侧训练节点解耦，通过数据通道进行周期性同步，实现训练与推理并行，以提高训练效率[11][14] 算法支持与数据效率 - 新增支持全异步off-policy强化学习算法，包括SAC、CrossQ和RLPD等，以应对物理世界数据收集效率低的挑战[11] - 该设计特别支持人在环介入的方法，允许在训练过程中融入专家示教或实时标注数据，从而提升数据利用率[11] - 框架同时支持多种仿真器、视觉语言动作模型、自定义策略和强化学习算法，提供了广泛的技术路线兼容性[4] 实验验证与性能表现 - 基于Franka机械臂和常见物品设计了“Charger”和“Peg Insertion”两个快速验证任务进行真机实验[12] - “Charger”任务使用异步SAC算法训练，过程中约有20次人在环鼠标接管；“Peg Insertion”任务使用异步RLPD算法训练，并预先采集了20条人类操作数据[12] - 实验结果显示，两个任务均能在1.5小时内收敛，收敛后“Peg Insertion”任务可连续成功100+次，“Charger”任务可连续成功50+次[15] - 成功验证了位于不同物理空间的两台Franka机械臂同时进行真机强化学习的可行性[16][23] 开发背景与团队生态 - RLinf框架自2025年9月1日发布以来，几乎保持每两周更新一次功能的开发速度，并于2025年12月17日正式发布了面向仿真路线的v0.1版本[1] - 开发团队由清华大学、北京中关村学院、无问芯穹联合北京大学、北京航空航天大学等多单位成员组成，背景涵盖基础设施、算法和机器人领域，形成了新的科研生态[20] - 团队秉持算法与基础设施需协同演进的理念，认为基础设施应支撑算法研发，同时算法应指导基础设施的构造[20]