世界建模
搜索文档
KAIST团队:基于双流扩散的世界模型增强VLA模型
具身智能之心· 2025-11-05 00:02
研究背景与核心问题 - 视觉-语言-动作模型是机器人通用策略学习的重要方向,但其关键缺陷是无法建模动作对环境的影响,缺乏对物理过程的显式理解[3] - 现有增强方案面临模态冲突的核心挑战,即强行统一处理动作和视觉两种特性迥异的模态会导致目标互相干扰[3][7] - 本工作提出双流扩散框架,核心目标是在保持模态特异性的同时实现跨模态知识共享,以解决联合预测的模态冲突问题[5] 相关工作梳理 - 视觉-语言-动作模型主要分为自回归生成和扩散生成两类动作生成方式,论文采用扩散生成方案,因其更易建模复杂动作分布[6] - 统一联合扩散架构用单一模型处理拼接后的动作和视觉模态,但强行统一低维动作和高维视觉会导致目标互相干扰[7] - 因果扩散架构用分离模型处理两种模态,但仅支持单向条件传递,无法实现双向知识迁移[7] - 现有模型多聚焦于模仿学习,忽略了动作如何影响未来状态的物理动态建模,这是双流扩散框架需补充的核心方向[8] 方法详解:双流扩散框架 - 框架通过架构设计、训练算法、采样策略三部分协同解决模态冲突,核心是解耦模态处理并保留跨模态交互[10] - 采用双流多模态扩散Transformer架构,动作流和视觉流保持独立传递,仅在跨模态注意力层临时合并以实现信息交换[15] - 采用解耦联合训练算法,核心是模态独立噪声调度,让动作和视觉按自身特性学习,同时捕捉双向因果关系[15] - 提出异步联合采样策略,推理时按模态需求分配去噪步数,视觉嵌入需更多步骤,动作则少量步骤即可收敛[16][18] 实验验证与分析 - 在模拟场景RoboCasa的24个任务中,100个演示数据下双流扩散框架平均成功率比GR00T-N1.5高18%,比FLARE高5%[20] - 在模拟场景GR-1的24个任务中,1000个演示数据下双流扩散框架在拾取放置和关节操作任务中的平均成功率达到0.420,优于基线的0.308[20][22] - 在真实场景Franka Research 3机械臂的4个任务中,双流扩散框架平均成功率为0.677,优于GR00T-N1.5的0.547和FLARE的0.557[24] - 通过无动作视频预训练,双流扩散框架平均成功率从0.501提升至0.585,证明其能利用低成本视频数据学习环境动态[26] - 消融实验显示,12层多模态扩散Transformer结合解耦噪声调度时性能最优,平均成功率达0.501[30] 结论与展望 - 双流扩散框架的核心创新点包括双流多模态扩散Transformer架构、解耦训练算法和异步联合采样策略[33] - 未来可探索结合更多无动作视频进行更大规模预训练,以提升模型对多样环境的适应能力[33] - 未来可融入触觉、力觉等模态,进一步增强机器人对环境的感知与动态建模能力[33]
世界模型VLA!DriveVLA-W0:7000万数据解锁自动驾驶VLA Scaling(中科院&引望)
自动驾驶之心· 2025-10-17 00:03
文章核心观点 - 中科院与华为引望的研究团队提出了一种名为DriveVLA-W0的新型自动驾驶视觉-语言-动作模型训练范式,旨在解决VLA模型因“监督不足”而无法充分利用其庞大模型容量的问题[2] - 该范式通过引入世界建模任务,让模型预测未来图像,从而生成密集的自监督信号,促使模型学习驾驶环境的底层动态规律,最终放大数据扩展定律并提升模型性能[2][4] - 实验表明,DriveVLA-W0在NAVSIM基准测试及包含7000万帧的内部数据集上,性能显著优于传统的BEV和VLA基线模型,并验证了其能加速模型性能随数据规模增大的提升速度[4][11] 背景与问题 - 当前自动驾驶领域追求通过海量数据训练基础模型,存在两种主流范式:基于BEV表征的专用模型和基于视觉-语言-动作的通用模型[5] - VLA模型的核心挑战在于“监督不足”:模型规模庞大,但仅通过稀疏、低维的动作信号进行监督,导致其大部分表征能力未被充分利用,性能甚至可能不及更小的专用BEV模型[5] - 单纯增加仅含动作监督的训练数据量无法解决这一根本性局限[5] 技术方案:DriveVLA-W0范式 - **核心创新**:将世界建模作为强自监督目标,补充稀疏的动作信号,通过预测未来图像为每个时间步提供密集的监督信号[5][9] - **针对不同架构的适配**: - 对于使用离散视觉token的VLA模型,设计了自回归世界模型,预测未来图像的离散视觉token序列[4][7] - 对于基于连续视觉特征的VLA模型,设计了扩散世界模型,在连续潜在空间中生成未来图像像素[4][7] - **模型架构**:基于两种主流VLM backbone构建基准模型变体,分别是处理离散视觉表征的Emu3和处理连续视觉特征的Qwen2.5-VL[12][19] - **效率优化**:引入了基于混合专家的轻量级动作专家,将动作生成与大型VLA骨干网络解耦,使推理延迟降至基准模型的63.1%[11][20] 实验结果与性能 - **在NAVSIM基准上的表现**:DriveVLA-W0在仅使用1个摄像头的情况下,综合性能指标达到90.2,优于使用更多传感器的其他VLA和BEV方法[25] - **在内部数据集上的扩展性**:在包含7000万帧的大规模内部数据集上,DriveVLA-W0展现出显著的数据扩展放大效应[4][11] - 对于VLA模型,增加世界建模后,在70M数据规模下,ADE指标提升了28.8%,碰撞率降低了19.7%[28] - 对于VLA模型,在相同条件下,ADE指标提升了3.7%,碰撞率降低了15.9%[28] - **动作专家的研究发现**:随着数据规模从NAVSIM的10.3万帧扩大到内部数据集的7000万帧,动作解码器的性能趋势出现反转[11][28] - 在小规模数据上,复杂的流匹配解码器更具优势[11] - 在大规模数据下,更简单的自回归解码器成为最优选择,在内部数据集上其ADE指标优于基于查询的方法10.5%,碰撞率降低34.9%[28] 意义与贡献 - **理论贡献**:明确指出“监督不足”是阻碍VLA模型扩展的关键瓶颈,并提出通过世界建模获取密集自监督信号的解决方案[11][30] - **实践价值**:世界建模不仅提升了模型在不同动作分布领域的泛化能力,更重要的是放大了数据扩展定律,实现了仅靠动作监督扩展无法达到的效果[11] - **行业影响**:研究表明,采用密集的预测性世界建模是充分释放大规模数据潜力、实现更具通用性驾驶智能的关键一步[31]