Workflow
监督赤字
icon
搜索文档
解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law
机器之心· 2025-11-17 04:23
文章核心观点 - 自动驾驶领域的视觉语言动作大模型面临“监督稀疏”的核心挑战,即高维视觉输入与低维动作监督信号不匹配,导致数据规模定律失效 [2][5][8] - 一项由国内顶尖学术机构与华为合作的研究提出,引入世界模型作为稠密的自监督信号,是破解上述挑战并显著放大数据规模定律的关键 [5][11][18] - 该研究提出的DriveVLA-W0框架,通过世界模型预测未来图像,使模型性能随数据量持续显著提升,并在大规模实验中验证了其降低碰撞率及提升推理效率的效果 [12][23][24][26] VLA模型在自动驾驶中的核心挑战 - VLA模型输入信息量极大,例如需要处理长达20亿token的上下文,包括多摄像头视频流、导航地图、动力学数据及音频数据 [4] - 但其输出仅为稀疏的驾驶动作,这种“监督赤字”导致模型表征能力浪费,无法充分学习复杂环境动态,使得性能随数据量增加迅速饱和 [5][8][9] 解决方案:世界模型作为自监督引擎 - 研究团队提出用世界模型提供稠密的自监督信号,核心任务是让模型预测未来的完整视觉画面 [11][12] - 通过预测未来图像,模型被迫学习真实世界的运行规律,如车辆运动趋势和交通参与者交互关系,从而获得比动作信号更丰富的学习信号 [15][16] 核心贡献:放大数据规模定律 - 实验证明,引入世界模型的DriveVLA-W0,其性能随数据量增长的斜率显著优于仅使用动作监督的基线模型 [21] - 在高达7000万帧的大规模数据集上,基线模型性能提升迅速放缓,而DriveVLA-W0性能持续显著提升,差距拉大 [22][23] - 在7000万帧数据规模下,世界模型的加入使模型碰撞率降低了20.4% [24] 模型架构创新:兼顾性能与效率 - 针对VLA模型部署的高延迟痛点,研究提出一种轻量级的混合专家架构“动作专家” [26] - 该设计在不牺牲性能的前提下,将模型推理延迟降低至基线VLA模型的63.1%,为实时部署提供了可能 [27] 行业影响与意义 - 该研究为特斯拉等行业提出的“监督稀疏”真问题提供了清晰的解题思路 [29] - 研究展示了世界模型在自动驾驶及具身智能领域的核心价值路径,即作为强大的自监督引擎来撬动VLA模型的数据规模定律 [29]