监督赤字 - 财报，业绩电话会，研报，新闻

监督赤字

搜索文档

解决特斯拉「监督稀疏」难题，DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

机器之心· 2025-11-17 04:23

文章核心观点 - 自动驾驶领域的视觉语言动作大模型面临“监督稀疏”的核心挑战，即高维视觉输入与低维动作监督信号不匹配，导致数据规模定律失效 [2][5][8] - 一项由国内顶尖学术机构与华为合作的研究提出，引入世界模型作为稠密的自监督信号，是破解上述挑战并显著放大数据规模定律的关键 [5][11][18] - 该研究提出的DriveVLA-W0框架，通过世界模型预测未来图像，使模型性能随数据量持续显著提升，并在大规模实验中验证了其降低碰撞率及提升推理效率的效果 [12][23][24][26] VLA模型在自动驾驶中的核心挑战 - VLA模型输入信息量极大，例如需要处理长达20亿token的上下文，包括多摄像头视频流、导航地图、动力学数据及音频数据 [4] - 但其输出仅为稀疏的驾驶动作，这种“监督赤字”导致模型表征能力浪费，无法充分学习复杂环境动态，使得性能随数据量增加迅速饱和 [5][8][9] 解决方案：世界模型作为自监督引擎 - 研究团队提出用世界模型提供稠密的自监督信号，核心任务是让模型预测未来的完整视觉画面 [11][12] - 通过预测未来图像，模型被迫学习真实世界的运行规律，如车辆运动趋势和交通参与者交互关系，从而获得比动作信号更丰富的学习信号 [15][16] 核心贡献：放大数据规模定律 - 实验证明，引入世界模型的DriveVLA-W0，其性能随数据量增长的斜率显著优于仅使用动作监督的基线模型 [21] - 在高达7000万帧的大规模数据集上，基线模型性能提升迅速放缓，而DriveVLA-W0性能持续显著提升，差距拉大 [22][23] - 在7000万帧数据规模下，世界模型的加入使模型碰撞率降低了20.4% [24] 模型架构创新：兼顾性能与效率 - 针对VLA模型部署的高延迟痛点，研究提出一种轻量级的混合专家架构“动作专家” [26] - 该设计在不牺牲性能的前提下，将模型推理延迟降低至基线VLA模型的63.1%，为实时部署提供了可能 [27] 行业影响与意义 - 该研究为特斯拉等行业提出的“监督稀疏”真问题提供了清晰的解题思路 [29] - 研究展示了世界模型在自动驾驶及具身智能领域的核心价值路径，即作为强大的自监督引擎来撬动VLA模型的数据规模定律 [29]