Data Scaling Law
搜索文档
解决特斯拉「监督稀疏」难题,用世界模型放大自动驾驶的Scaling Law
具身智能之心· 2025-11-20 00:03
文章核心观点 - 视觉语言动作模型在自动驾驶领域面临“监督稀疏”的核心挑战,即高维视觉输入与低维稀疏动作监督之间的不匹配,导致数据规模定律失效 [3][7] - 研究团队提出DriveVLA-W0方案,通过引入世界模型作为稠密的自监督信号,迫使模型学习环境动态规律,成功解锁并放大了数据规模定律 [10][11][17] - 该方案在7000万帧数据规模上验证有效,显著提升模型性能并降低推理延迟,为VLA模型的产业落地提供了新路径 [21][23][27] VLA模型的“监督赤字”问题 - 自动驾驶领域希望复现大语言模型的数据规模定律,但VLA模型面临“监督赤字”困境 [6][7] - 数十亿参数的VLA模型接收高维稠密视觉信息流,监督信号却是低维稀疏的驾驶动作,导致模型表征能力浪费,无法充分学习复杂环境动态 [7] - 实验证实,在稀疏动作监督下,VLA模型性能随数据量增加迅速饱和,数据规模定律效应大打折扣 [8] 世界模型的破解之道 - DriveVLA-W0方案创造性引入世界模型,将“预测未来图像”作为稠密自监督训练任务,替代依赖稀疏动作的传统方法 [10][11] - 预测下一帧完整视觉画面迫使模型学习世界真实运行规律,如车辆运动趋势、人车交互关系,提供比动作更丰富稠密的学习信号 [14][15] - 世界模型从根本上缓解了“监督赤字”问题,为模型提供了理解环境动态的必要监督 [15] 世界模型对数据规模定律的放大效应 - 研究核心贡献在于发现世界模型能显著“放大”数据规模定律,使模型性能随数据量增加实现持续显著提升 [17][23] - 在700K到70M的数据规模上,DriveVLA-W0性能提升斜率显著优于仅依赖动作监督的基线模型 [21] - 在70M帧规模下,世界模型使碰撞率降低20.4%,实现了单纯堆砌动作数据无法达到的质变 [24] 兼顾性能与效率的模型设计 - 针对VLA模型“高延迟”痛点,团队提出轻量级MoE“动作专家”架构,在不牺牲性能的前提下优化推理效率 [26] - 该设计显著降低模型推理延迟,仅为基线VLA模型的63.1%,为模型实时部署提供可能 [27]
解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law
机器之心· 2025-11-17 04:23
文章核心观点 - 自动驾驶领域的视觉语言动作大模型面临“监督稀疏”的核心挑战,即高维视觉输入与低维动作监督信号不匹配,导致数据规模定律失效 [2][5][8] - 一项由国内顶尖学术机构与华为合作的研究提出,引入世界模型作为稠密的自监督信号,是破解上述挑战并显著放大数据规模定律的关键 [5][11][18] - 该研究提出的DriveVLA-W0框架,通过世界模型预测未来图像,使模型性能随数据量持续显著提升,并在大规模实验中验证了其降低碰撞率及提升推理效率的效果 [12][23][24][26] VLA模型在自动驾驶中的核心挑战 - VLA模型输入信息量极大,例如需要处理长达20亿token的上下文,包括多摄像头视频流、导航地图、动力学数据及音频数据 [4] - 但其输出仅为稀疏的驾驶动作,这种“监督赤字”导致模型表征能力浪费,无法充分学习复杂环境动态,使得性能随数据量增加迅速饱和 [5][8][9] 解决方案:世界模型作为自监督引擎 - 研究团队提出用世界模型提供稠密的自监督信号,核心任务是让模型预测未来的完整视觉画面 [11][12] - 通过预测未来图像,模型被迫学习真实世界的运行规律,如车辆运动趋势和交通参与者交互关系,从而获得比动作信号更丰富的学习信号 [15][16] 核心贡献:放大数据规模定律 - 实验证明,引入世界模型的DriveVLA-W0,其性能随数据量增长的斜率显著优于仅使用动作监督的基线模型 [21] - 在高达7000万帧的大规模数据集上,基线模型性能提升迅速放缓,而DriveVLA-W0性能持续显著提升,差距拉大 [22][23] - 在7000万帧数据规模下,世界模型的加入使模型碰撞率降低了20.4% [24] 模型架构创新:兼顾性能与效率 - 针对VLA模型部署的高延迟痛点,研究提出一种轻量级的混合专家架构“动作专家” [26] - 该设计在不牺牲性能的前提下,将模型推理延迟降低至基线VLA模型的63.1%,为实时部署提供了可能 [27] 行业影响与意义 - 该研究为特斯拉等行业提出的“监督稀疏”真问题提供了清晰的解题思路 [29] - 研究展示了世界模型在自动驾驶及具身智能领域的核心价值路径,即作为强大的自监督引擎来撬动VLA模型的数据规模定律 [29]