WMPO(世界模型驱动的策略优化框架)
搜索文档
港科大等团队提出WMPO:基于世界模型的VLA策略优化框架
具身智能之心· 2025-11-14 01:02
文章核心观点 - 香港科技大学与字节跳动Seed团队联合提出WMPO框架,通过像素级视频生成世界模型实现VLA模型的无真实环境交互on-policy强化学习 [1] - WMPO框架显著提升机器人操作的样本效率、任务性能、泛化能力与终身学习能力,并涌现出自修正等高级行为 [1] 研究背景与核心痛点 - VLA模型是通用机器人操作的关键范式,但主流模仿学习范式面对训练中未见过的分布外状态时易出错,且无法从失败中学习和自修正 [6] - 强化学习直接应用于真实机器人时样本效率极低,需数百万次交互,既不切实际也存在安全风险 [6] - 现有解决方案难以兼顾规模化与有效性:人类干预引导学习需持续监督,难以扩展;仿真器适配多样场景成本高;传统潜在空间世界模型与VLA的web-scale预训练视觉特征存在天然错位 [4] 核心框架设计 - WMPO核心逻辑是将VLA策略优化完全置于“想象”空间,基于高保真像素级世界模型生成轨迹替代真实环境交互,支持更强的on-policy强化学习 [5] - 整体流程遵循“想象轨迹生成→轨迹采样评估→策略更新”的迭代循环 [5] - 生成式世界模型核心作用是仿真机器人与环境的动态变化,生成与VLA预训练特征对齐的视觉轨迹 [8] - 轻量级奖励模型核心作用是自动判断想象轨迹的任务成败,提供稀疏奖励信号,避免复杂奖励塑造 [9] - 选择Group Relative Policy Optimization作为优化算法,适配稀疏奖励场景,兼顾稳定性与扩展性,采用无KL正则化设计以减少内存消耗并鼓励策略探索 [10] 核心技术创新 - 采用像素空间优先设计,摒弃传统潜在空间世界模型,直接在像素空间生成轨迹以完美匹配VLA的预训练视觉特征 [11] - 基于OpenSora的视频扩散骨干网络,将3D VAE替换为SDXL的2D VAE以更好保留细粒度运动细节,扩散过程在VAE潜在空间进行,优化时解码回像素空间 [12] - 通过策略自身收集的真实轨迹微调世界模型,解决专家演示与策略实际行为的分布错位问题 [12][18] - 引入噪声帧条件和帧级动作控制技术,实现数百帧无质量损失的轨迹生成,突破长horizon视频生成的瓶颈 [12][18] - 实现无真实交互的on-policy强化学习,依托世界模型进行大规模轨迹采样,规避真实环境的高成本 [18] 实验验证与性能结果 - 在仿真环境Mimicgen平台的4个精细操作任务中,WMPO表现均优于GRPO、DPO等基线方法 [13] - 当交互预算为128时,WMPO平均成功率达47.1%,超出最强基线9.8个百分点;预算提升至1280时,平均成功率达57.6%,优势扩大至15.2个百分点,样本效率突出 [14] - 在真实环境Cobot Mobile ALOHA平台的“方块插入杆子”任务中,WMPO成功率70%,显著高于基础策略的53%和DPO的60% [15] - 在空间扰动、背景替换、纹理替换三种分布外场景中,WMPO平均成功率29.6%,优于所有基线,证明其学习的是通用操作技能而非虚假视觉线索 [19][20] - 成功轨迹长度显著短于基线,动作更流畅,避免“卡壳”现象 [22] - 在终身学习测试中,迭代收集128条轨迹进行优化,性能持续稳定提升,而DPO训练不稳定且无法实现迭代改进 [23] 涌现行为与框架意义 - 框架涌现出自修正能力,面对碰撞等失败状态能自主调整动作,而基线策略会持续错误动作直至超时 [17] - WMPO构建了“世界模型+on-policy强化学习”的VLA优化新范式,解决了真实环境交互成本高、样本效率低的行业痛点 [25] - 该框架为通用机器人操作的规模化落地提供了可行路径,未来可扩展至流基策略以适配更多动作空间类型 [25]