DriveLaW
搜索文档
帝国理工VLA综述:从世界模型到VLA,如何重构自动驾驶(T-ITS)
自动驾驶之心· 2026-01-05 00:35
文章核心观点 - 一篇由帝国理工学院团队撰写、发表于IEEE T-ITS的综述文章,系统性地回顾了截至2025年9月的77篇前沿论文,为自动驾驶领域大模型(特别是视觉语言模型VLM)的技术发展、应用与挑战提供了详尽的学习路线图[2] - 文章指出自动驾驶技术范式正从传统的“感知-规划”分离模式,向Vision-Language-Action端到端以及生成式世界模型演进,大模型正在重构整个技术栈[2][14] - 综述不仅总结了当前三大技术趋势(端到端VLA、世界模型、模块化集成),还以工程落地视角指出了推理延迟、幻觉和计算权衡三大核心挑战,并提出了未来四大研究方向[9][13][17] 技术范式演进与当前趋势 - **端到端VLA的崛起**:技术趋势正从简单的多模态融合,转向将视觉与语言作为协同推理流,直接输出规划轨迹的VLA设计[10] - **世界模型成为数据引擎核心**:工业界押注世界模型的背后,是利用生成式AI解决Corner Case的野心,其被视为实现“数据飞轮”的关键技术[6][11] - **模块化感知的重塑**:即使在端到端架构备受推崇的当下,模块化方案在大模型加持下焕发新生,例如利用VLM进行语义异常检测和长尾目标识别[7] 关键技术架构与代表工作 - **VLA代表模型**:深入复盘了LMDrive、AlphaDrive、OpenDriveVLA等工作,这些模型展示了通过语言指令实现闭环控制,并利用思维链解决长尾场景中的因果推理难题[10] - **世界模型前沿案例**:重点拆解了Gaia-1、DriveDreamer-2以及GenAD,这些基于潜在扩散模型的世界模型不仅能生成逼真的驾驶视频,还能保持长时间的物理一致性[11] - **模块化感知应用**:展示了Talk2BEV、ChatBEV等利用VLM进行语义异常检测的潜力[7] 工程落地的主要挑战与解法 - **推理延迟挑战**:像DriVLMe这样的模型推理可能需要数秒,无法满足高频控制所需的毫秒级响应[9][12] - **延迟优化解法**:探讨了视觉Token压缩(如Senna-VLM的Driving Vision Adapter)、思维链剪枝以及针对NVIDIA OrinX芯片的量化优化策略(如PEFT/LoRA)[12] - **幻觉问题挑战**:VLM可能会生成不存在的车辆或错误理解交通规则,这是安全的重大隐患[15] - **幻觉问题解法**:引入Nullu等“幻觉子空间投影”技术,以及基于规则的安全过滤器[15] - **计算权衡架构**:探讨了“快慢系统”架构,即利用云端大模型进行长时序推理与Corner Case处理,配合车端小模型进行实时高频控制[13] 关键基础设施与资源 - **数据集演进**:重点分析了NuScenes-QA、DriveLM等专注于驾驶推理与问答的数据集,它们弥补了传统感知数据集在逻辑推理上的短板[16] - **仿真平台应用**:探讨了CARLA、NuPlan等模拟器在VLM闭环评测中的应用,强调了从开环指标向闭环实战迁移的必要性[16] - **详尽的汇总资料**:论文内含9个详细的分类汇总表,系统梳理了该领域的关键信息[14] 未来研究方向 - **标准化评测**:建立统一的VLA安全性与幻觉率评分体系[17] - **端侧轻量化**:研究如何在有限算力(如OrinX芯片)上运行7B+参数的大模型[17] - **多模态对齐**:提升LiDAR点云、视觉与语言在复杂长尾场景下的语义一致性[17] - **法律与伦理**:探索当VLM做出决策时,如何进行归因与定责[17]
超越DriveVLA-W0!DriveLaW:世界模型表征一统生成与规划(华科&小米)
自动驾驶之心· 2026-01-04 01:04
自动驾驶世界模型研究进展 - 自动驾驶技术得益于感知与规划的突破性进展,但在面对长尾场景时依然脆弱,制约了闭环驾驶性能[2] - 大量研究尝试运用世界模型,通过预测驾驶场景的未来演变来增强系统的泛化性与鲁棒性,以解决长尾问题[2] - 现有世界模型在自动驾驶中的应用主要分为三类:合成下游任务数据以应对罕见场景、利用模拟环境进行策略学习、提供未来的视觉预测作为辅助监督信号[3] 现有世界模型的局限性 - 现有世界模型在规划层面的贡献往往是间接的或与规划器并行的,缺乏与决策过程的紧密耦合[3] - 世界模型模拟器仅用于合成数据或作为闭环环境引导策略学习,其物理理解无法直接传递到规划器的内部状态中[3] - 世界模型监督仅预测未来视觉或信号来监督轨迹,规划过程依然是外部指定的[3] - 统一世界模型尝试联合生成视频和轨迹,但往往将视频生成器与策略头解耦,未能利用生成器强大的内部潜在特征作为规划依据,导致“视觉想象”与“动作决策”之间存在鸿沟[3] DriveLaW模型的核心创新 - 提出了DriveLaW,一种基于共享潜在空间表征的端到端世界模型,将生成与规划从并行转变为链式结构[5] - 核心思想在于直接利用大规模视频生成模型学习到的、蕴含丰富场景语义、智能体动力学和物理规律的潜在特征,将其注入到基于DiT的规划器中[5] - 核心优势包括链式生成与规划、独特的架构设计以及渐进式学习策略[5] DriveLaW的架构与训练方法 - 模型由DriveLaW-Video(时空世界生成器)和DriveLaW-Act(基于扩散的规划器)两部分组成[10] - 采用高压缩比(pixel-to-token ratio 64)的时空VAE,将视频片段编码至时空分辨率、128通道的因果潜空间,优于常见的16或32压缩率[18] - 引入了噪声重注入机制,在每次主去噪前,选择性向高频区域重注入噪声,以恢复动态目标与车道线的锐度和纹理,平衡细节重建与伪影抑制[25][27] - 采用三阶段渐进式训练策略:第一阶段在降低的空间分辨率下学习鲁棒运动模式;第二阶段在更高的空间分辨率下增强视觉质量;第三阶段将规划器与视频生成器的潜在特征耦合进行训练[34] DriveLaW的实验性能 - 在nuScenes视频生成任务上,DriveLaW达到了4.6 FID和81.3 FVD分数,超越了之前的世界模型方案[5][35] - 在NAVSIM闭环规划基准测试中,无需任何强化学习微调或后处理,便达到了89.1 PDMS分数,超越了以往的纯视觉世界模型方案[5][36] - 与采用并行生成-规划设计的Epona相比,DriveLaW提高了2.9 PDMS;比使用VLM和世界模型监督的DriveVLA-W0和PWM分别提高了1.9和1.0 PDMS[36] - 增加视频生成器的预训练样本量持续提升了闭环性能,使用7.6M样本预训练的生成器比从零开始训练的生成器带来了+3.2 PDMS的提升[37] 不同表征对规划性能的影响 - 视频生成器潜在特征比BEV特征提高了5.0 PDMS,比VLM隐藏状态提高了2.6 PDMS,证明了该表征的有效性[40] - 以来自早期去噪步骤的潜变量为条件会产生更强的规划能力,而来自后期步骤的潜变量表现较差,因为原始像素格式的视频包含冗余信息[41] - 可视化分析显示,VGM特征比BEV和VLM特征更锐利、噪声更少,并表现出卓越的语义连贯性和强大的空间结构感知能力[39] 训练策略的有效性验证 - 移除第一阶段训练会导致FVD显著升高(从81.3升至109.3),表明时间连贯性明显丧失[42] - 省略第二阶段训练会导致FVD少量增加(从81.3升至93.2),表明空间细节略有下降[42] - 完整的多阶段训练策略实现了最佳平衡,产生了最低的FID(4.6)和FVD(81.3)[42]