Workflow
数据缩放律
icon
搜索文档
世界模型VLA!DriveVLA-W0:7000万数据解锁自动驾驶VLA Scaling(中科院&引望)
自动驾驶之心· 2025-10-17 00:03
文章核心观点 - 中科院与华为引望的研究团队提出了一种名为DriveVLA-W0的新型自动驾驶视觉-语言-动作模型训练范式,旨在解决VLA模型因“监督不足”而无法充分利用其庞大模型容量的问题[2] - 该范式通过引入世界建模任务,让模型预测未来图像,从而生成密集的自监督信号,促使模型学习驾驶环境的底层动态规律,最终放大数据扩展定律并提升模型性能[2][4] - 实验表明,DriveVLA-W0在NAVSIM基准测试及包含7000万帧的内部数据集上,性能显著优于传统的BEV和VLA基线模型,并验证了其能加速模型性能随数据规模增大的提升速度[4][11] 背景与问题 - 当前自动驾驶领域追求通过海量数据训练基础模型,存在两种主流范式:基于BEV表征的专用模型和基于视觉-语言-动作的通用模型[5] - VLA模型的核心挑战在于“监督不足”:模型规模庞大,但仅通过稀疏、低维的动作信号进行监督,导致其大部分表征能力未被充分利用,性能甚至可能不及更小的专用BEV模型[5] - 单纯增加仅含动作监督的训练数据量无法解决这一根本性局限[5] 技术方案:DriveVLA-W0范式 - **核心创新**:将世界建模作为强自监督目标,补充稀疏的动作信号,通过预测未来图像为每个时间步提供密集的监督信号[5][9] - **针对不同架构的适配**: - 对于使用离散视觉token的VLA模型,设计了自回归世界模型,预测未来图像的离散视觉token序列[4][7] - 对于基于连续视觉特征的VLA模型,设计了扩散世界模型,在连续潜在空间中生成未来图像像素[4][7] - **模型架构**:基于两种主流VLM backbone构建基准模型变体,分别是处理离散视觉表征的Emu3和处理连续视觉特征的Qwen2.5-VL[12][19] - **效率优化**:引入了基于混合专家的轻量级动作专家,将动作生成与大型VLA骨干网络解耦,使推理延迟降至基准模型的63.1%[11][20] 实验结果与性能 - **在NAVSIM基准上的表现**:DriveVLA-W0在仅使用1个摄像头的情况下,综合性能指标达到90.2,优于使用更多传感器的其他VLA和BEV方法[25] - **在内部数据集上的扩展性**:在包含7000万帧的大规模内部数据集上,DriveVLA-W0展现出显著的数据扩展放大效应[4][11] - 对于VLA模型,增加世界建模后,在70M数据规模下,ADE指标提升了28.8%,碰撞率降低了19.7%[28] - 对于VLA模型,在相同条件下,ADE指标提升了3.7%,碰撞率降低了15.9%[28] - **动作专家的研究发现**:随着数据规模从NAVSIM的10.3万帧扩大到内部数据集的7000万帧,动作解码器的性能趋势出现反转[11][28] - 在小规模数据上,复杂的流匹配解码器更具优势[11] - 在大规模数据下,更简单的自回归解码器成为最优选择,在内部数据集上其ADE指标优于基于查询的方法10.5%,碰撞率降低34.9%[28] 意义与贡献 - **理论贡献**:明确指出“监督不足”是阻碍VLA模型扩展的关键瓶颈,并提出通过世界建模获取密集自监督信号的解决方案[11][30] - **实践价值**:世界建模不仅提升了模型在不同动作分布领域的泛化能力,更重要的是放大了数据扩展定律,实现了仅靠动作监督扩展无法达到的效果[11] - **行业影响**:研究表明,采用密集的预测性世界建模是充分释放大规模数据潜力、实现更具通用性驾驶智能的关键一步[31]