从具身到自驾,VLA和世界模型的融合趋势已经形成......
自动驾驶之心·2025-12-18 00:06

文章核心观点 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型——正呈现出明显的融合趋势,旨在共同塑造一个“既会思考,又会沟通”的终极驾驶大脑,以解决传统模块化方案和早期端到端模型的局限性 [1][16][47] 技术路线解析:VLA - 定义与目标:VLA 是“视觉-语言-行动”模型,旨在实现人车交互与可解释的端到端自动驾驶,其核心是将人类语言指令融入系统,让车辆“能听懂、会解释、直接开” [4][11] - 系统架构:采用输入-中间层-输出的“三明治架构” [5] - 输入端:融合多摄像头图像生成的BEV/体素表征、激光雷达/毫米波雷达数据以及人类语言指令 [5] - 中间层:由视觉编码器、基于大语言模型的处理器和动作解码器构成,进行统一推理与决策生成 [5] - 输出端:直接输出车辆的低层控制指令或未来数秒的行驶轨迹 [6] - 核心优势:交互自然、可解释性强,并能利用语言常识处理复杂语义场景 [11] - 当前挑战:面临语言与行动对齐困难、算力需求大等难题 [11] 技术路线解析:World Model - 定义与目标:世界模型是一种生成式时空神经网络系统,旨在为自动驾驶系统构建一个可预测和仿真的内部世界,使其具备“在脑海中预演未来”的能力,从而支持更安全、前瞻的规划 [8][11] - 系统架构:同样遵循输入-核心模型-输出的架构 [9] - 输入端:侧重于时序的多模态传感器数据及自车状态,专注于对物理世界状态的建模 [9] - 核心层:由编码器、记忆模块和生成式预测模块构成,负责状态编码与未来场景的生成式推演 [10] - 输出端:生成未来场景的丰富表征,如图像序列、BEV地图或4D占据栅格,为下游规划模块提供前瞻信息,而非直接控制车辆 [10] - 核心优势:能够预测和仿真未来,方便量化风险,并可通过仿真生成大量极端案例数据 [11] - 当前挑战:缺乏高级语义理解、实时高保真推演的计算成本高,且本身不直接产出驾驶策略 [11] VLA与世界模型的异同 - 主要区别:两者在目标、输入输出、核心技术及优势挑战上存在显著差异,具体对比如文章中的表格所示 [11] - 内在联系:尽管路径不同,但二者存在多方面的共同点 [12][13][14][15] - 技术起源一致:均源于对传统模块化流水线和早期“黑箱”端到端模型的反思 [12] - 终极目标一致:都是为了让自动驾驶系统具备类人的认知与决策能力 [13] - 关键挑战一致:都需要解决剩余20%的极端案例难题 [14] - 技术底层一致:都重度依赖“预训练+微调”的深度学习范式及Transformer等核心架构 [15] 技术融合趋势与实例 行业研究显示,VLA与世界模型的融合已成为明确趋势,旨在形成“感知-推理-仿真-决策-解释”的增强闭环 [16][21][47]。近期多项研究工作体现了这一融合方向: - 3D-VLA (2024.03):提出了一个融合3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标图像、深度图和点云,让模型具备“想象未来”的能力。在一个包含约200万个样本的3D具身指令数据集上训练,在3D推理定位等多任务上表现超越2D模型 [20][22] - WorldVLA (2025.06):将VLA模型与世界模型统一于单一框架,实现动作与图像的联合理解与生成。在LIBERO基准测试中,其动作生成成功率超过同类离散动作模型约4%,视频生成质量优于单纯世界模型约10% [25][26][27] - IRL-VLA (2025.08):提出基于逆强化学习奖励世界模型的闭环强化学习框架来训练VLA策略。在NAVSIM v2闭环驾驶基准上取得领先性能,并在CVPR 2025自动驾驶大挑战中获得亚军 [30][31] - DriveVLA-W0 (2025.10):通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的根本瓶颈。在NAVSIM基准测试中,仅用单目前置摄像头即超越多传感器基线模型。在大规模内部数据集上的实验表明,该方法能放大数据扩展定律 [34][35][36] - WM-MoE (2025.10):提出首个基于世界模型,并融合专家混合网络与大型语言模型的运动预测框架,专门针对极端案例。在多个公开数据集上的实验表明,其在整体精度和极端案例处理上均超越现有先进方法 [39][40][41] - FutureSightDrive (2025.11):引入视觉时空链式思考作为中间推理步骤,让VLA模型进行“视觉思考”。该框架首先生成包含物理合理先验信息的统一未来帧,再基于此进行轨迹规划,有效弥合感知与规划间的模态鸿沟 [44][45][46] 行业动态与展望 - 工业界已开始布局相关技术,例如华为强调其世界模型能力,小鹏汽车正在研发VLA 2.0,而理想汽车也在发布会上展示了相关理解,预示着将有更多厂商进入该领域 [47] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路演进,构建具备闭环智能的驾驶系统 [47]