从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法

方法范式 - 传统强化学习（RL）和模仿学习结合Sim2Real技术，方法包括DQN/PPO/SAC/D4PG/GRPO等，主流仿真环境有Mujoco、Gazebo、Bullet、IssacSim/IssacGym [5] - Diffusion Policy和VLA模型与传统RL的根本区别在于用训练数据分布描述任务目标，而非依赖reward function，适合复杂任务如叠衣服、收拾桌面等 [4] - OpenVLA模型整合多模态输入，基于7B参数的Llama 2语言模型，结合DINOv2和SigLIP视觉编码器 [7] - RDT（Robotic Decision Transformer）采用Goal-Conditioned设计，在AGIBot百万真机数据集上训练 [9] - pi-0引入动作抽象层，将不同机器人关节空间映射到统一潜空间，缓解本体差异问题 [13] - 流匹配（Flow Matching）建模从标准正态分布到复杂目标数据分布的映射，用于生成机器人动作序列 [15][17][18] 技术实现 - 基础运动控制（如人形/四足机器人）以RL+sim2real为主，模型较小，算力消耗低，但全场景丝滑动作仍有差距 [22] - 复杂/长程操作任务采用预训练ViT编码器+LLM，使用diffusion/流匹配/transformer decoder输出动作，通过预训练+微调实现跨机器人泛化 [23] - 宇树官方demo基于IssacGym和PPO算法 [24] - 北京亦庄人形机器人中心开源强化学习运动控制，基于IssacLab融合人体运动数据与AMP奖励，实现天工Ultra机器人21公里奔跑 [24] - pi0预训练阶段利用10,000小时多机器人数据，微调阶段需1-5小时到上百小时任务数据，模型规格为33亿参数 [25] - Google Gemini Robotics采用云端VLA骨干（160毫秒延迟）和本地动作解码器的快慢架构 [25][26] 数据集 - Open X-Embodiment数据集包含1M+ trajectories、500+ skills、22种机器人类型，统一为RLDS格式 [21] - AGIBot数据集为智元机器人开源的百万真机数据集 [9][24] - EgoDex数据集包含829小时人类操作视频，338K轨迹/194任务 [24] 应用场景 - 基础运动控制依赖仿真器、机器人模型和domain randomization设计，reward shaping和sim2real技术 [35] - 复杂长程任务依赖VLA和Diffusion/FM，用训练数据分布描述任务目标，语言索引任务分布 [35] - 任务过程和目标定义方面，强化学习通过reward函数，VLA用数据分布描述，未来可能通过多模态输入预测任务目标 [35] - 底层控制任务适合RL+sim2real，上层复杂任务适合VLA+数据，如叠衣服、收拾桌面等需要理解人类意图的任务 [40]