Macro-to-Micro Flow (M2Flow) - 财报，业绩电话会，研报，新闻

Macro-to-Micro Flow (M2Flow)

搜索文档

近2k star的RLinf又又又上新了！支持真机强化学习，像使用GPU一样使用你的机器人~

具身智能之心· 2025-12-26 03:38

RLinf v0.2 框架发布与核心特色 - 公司正式发布面向真机强化学习路线的RLinf v0.2版本，旨在支持与仿真路线并行的技术探索，解决具身智能领域的数据来源之争[3] - 该框架允许用户将机器人视为与GPU同层级的可配置资源，通过编写YAML配置文件即可完成模型与机器人的映射与数据通信，极大降低了使用成本[3][6] - 框架设计旨在解锁大规模分布式真机强化学习训练范式，这被视为继扩大数据规模和模型规模之后的第三条发展路径：扩大真机规模[5] 系统架构与设计理念 - 提出Macro-to-Micro Flow (M2Flow) 新一代编程范式，将上层工作流与底层计算优化解耦，以兼顾系统灵活性与高效性[7] - 系统设计支持全异构软硬件集群配置，能够灵活适配端云协同场景，例如在NUC上运行控制器、在RTX 4090上进行推理、在A800上进行训练[8][10] - 采用全异步设计，将端侧推理节点与云侧训练节点解耦，通过数据通道进行周期性同步，实现训练与推理并行，以提高训练效率[11][14] 算法支持与数据效率 - 新增支持全异步off-policy强化学习算法，包括SAC、CrossQ和RLPD等，以应对物理世界数据收集效率低的挑战[11] - 该设计特别支持人在环介入的方法，允许在训练过程中融入专家示教或实时标注数据，从而提升数据利用率[11] - 框架同时支持多种仿真器、视觉语言动作模型、自定义策略和强化学习算法，提供了广泛的技术路线兼容性[4] 实验验证与性能表现 - 基于Franka机械臂和常见物品设计了“Charger”和“Peg Insertion”两个快速验证任务进行真机实验[12] - “Charger”任务使用异步SAC算法训练，过程中约有20次人在环鼠标接管；“Peg Insertion”任务使用异步RLPD算法训练，并预先采集了20条人类操作数据[12] - 实验结果显示，两个任务均能在1.5小时内收敛，收敛后“Peg Insertion”任务可连续成功100+次，“Charger”任务可连续成功50+次[15] - 成功验证了位于不同物理空间的两台Franka机械臂同时进行真机强化学习的可行性[16][23] 开发背景与团队生态 - RLinf框架自2025年9月1日发布以来，几乎保持每两周更新一次功能的开发速度，并于2025年12月17日正式发布了面向仿真路线的v0.1版本[1] - 开发团队由清华大学、北京中关村学院、无问芯穹联合北京大学、北京航空航天大学等多单位成员组成，背景涵盖基础设施、算法和机器人领域，形成了新的科研生态[20] - 团队秉持算法与基础设施需协同演进的理念，认为基础设施应支撑算法研发，同时算法应指导基础设施的构造[20]

具身智能

真机强化学习

大规模分布式真机强化学习训练范式

Macro-to-Micro Flow (M2Flow)

Macro-to-Micro Flow (M2Flow)

RLinf

franka机械臂

全异构、全异步的RLinf v0.2尝鲜版发布，支持真机强化学习，像使用GPU一样使用你的机器人！

机器之心· 2025-12-26 03:06

文章核心观点 - 公司发布了RLinf v0.2版本，这是一个面向“真机路线”的强化学习基础设施框架，旨在支持大规模分布式真机强化学习训练范式，以解决具身智能领域的数据效率与系统灵活性挑战 [2][4][9] RLinf v0.2 系统特色 - **特色1：将机器人抽象为可灵活配置的资源**：系统将机器人（Robot Node）视为与GPU（GPU Node）同层级的资源，用户只需编写YAML配置文件即可完成模型与机器人的映射对接，极大降低了使用成本 [5][6][9] - **特色2：支持全异构软硬件集群配置**：系统能够灵活配置端云协同的异构集群，例如在NUC上运行机器人控制器、在RTX 4090（24GB显存）上进行模型推理、在A800（80GB显存）上进行模型训练，以提升系统吞吐和训练效率 [11][12][13][14] - **特色3：支持全异步off-policy算法**：v0.2版本新增全异步设计，将端侧推理节点与云侧训练节点解耦，通过Data Channel进行数据同步，实现训推并行，并上线了SAC、CrossQ、RLPD等off-policy算法，以提高数据利用率和训练效率 [15][16] 实验验证与发布信息 - **实验设置**：尝鲜版基于Franka机械臂设计了两个快速验证任务：使用异步SAC算法的Charger（稠密奖励）任务和使用异步RLPD算法的Peg Insertion（稀疏奖励）任务，后者在训练前采集了20条人类操作数据作为离线数据集 [19] - **社区与开发进展**：自2025年9月1日发布以来，RLinf已拥有约2千位社区用户，并保持约每两周更新一次新功能的速度；面向仿真路线的RLinf v0.1版本已于2025年12月17日正式发布 [22] - **支持矩阵**：框架目前支持多种仿真器（如Maniskill、IsaacLab）、视觉语言动作模型（如Pi0、GR00T、OpenVLA）、自定义策略（如MLP、CNN）以及强化学习算法（如GRPO、PPO）等 [26]

具身智能

大规模分布式真机强化学习训练范式

Macro-to-Micro Flow (M2Flow)

Macro-to-Micro Flow (M2Flow)

全异步off-policy算法

RLinf v0.2

Franka机械臂