帝国理工VLA综述:从世界模型到VLA,如何重构自动驾驶(T-ITS)
自动驾驶之心·2026-01-05 00:35

文章核心观点 - 一篇由帝国理工学院团队撰写、发表于IEEE T-ITS的综述文章,系统性地回顾了截至2025年9月的77篇前沿论文,为自动驾驶领域大模型(特别是视觉语言模型VLM)的技术发展、应用与挑战提供了详尽的学习路线图[2] - 文章指出自动驾驶技术范式正从传统的“感知-规划”分离模式,向Vision-Language-Action端到端以及生成式世界模型演进,大模型正在重构整个技术栈[2][14] - 综述不仅总结了当前三大技术趋势(端到端VLA、世界模型、模块化集成),还以工程落地视角指出了推理延迟、幻觉和计算权衡三大核心挑战,并提出了未来四大研究方向[9][13][17] 技术范式演进与当前趋势 - 端到端VLA的崛起:技术趋势正从简单的多模态融合,转向将视觉与语言作为协同推理流,直接输出规划轨迹的VLA设计[10] - 世界模型成为数据引擎核心:工业界押注世界模型的背后,是利用生成式AI解决Corner Case的野心,其被视为实现“数据飞轮”的关键技术[6][11] - 模块化感知的重塑:即使在端到端架构备受推崇的当下,模块化方案在大模型加持下焕发新生,例如利用VLM进行语义异常检测和长尾目标识别[7] 关键技术架构与代表工作 - VLA代表模型:深入复盘了LMDrive、AlphaDrive、OpenDriveVLA等工作,这些模型展示了通过语言指令实现闭环控制,并利用思维链解决长尾场景中的因果推理难题[10] - 世界模型前沿案例:重点拆解了Gaia-1、DriveDreamer-2以及GenAD,这些基于潜在扩散模型的世界模型不仅能生成逼真的驾驶视频,还能保持长时间的物理一致性[11] - 模块化感知应用:展示了Talk2BEV、ChatBEV等利用VLM进行语义异常检测的潜力[7] 工程落地的主要挑战与解法 - 推理延迟挑战:像DriVLMe这样的模型推理可能需要数秒,无法满足高频控制所需的毫秒级响应[9][12] - 延迟优化解法:探讨了视觉Token压缩(如Senna-VLM的Driving Vision Adapter)、思维链剪枝以及针对NVIDIA OrinX芯片的量化优化策略(如PEFT/LoRA)[12] - 幻觉问题挑战:VLM可能会生成不存在的车辆或错误理解交通规则,这是安全的重大隐患[15] - 幻觉问题解法:引入Nullu等“幻觉子空间投影”技术,以及基于规则的安全过滤器[15] - 计算权衡架构:探讨了“快慢系统”架构,即利用云端大模型进行长时序推理与Corner Case处理,配合车端小模型进行实时高频控制[13] 关键基础设施与资源 - 数据集演进:重点分析了NuScenes-QA、DriveLM等专注于驾驶推理与问答的数据集,它们弥补了传统感知数据集在逻辑推理上的短板[16] - 仿真平台应用:探讨了CARLA、NuPlan等模拟器在VLM闭环评测中的应用,强调了从开环指标向闭环实战迁移的必要性[16] - 详尽的汇总资料:论文内含9个详细的分类汇总表,系统梳理了该领域的关键信息[14] 未来研究方向 - 标准化评测:建立统一的VLA安全性与幻觉率评分体系[17] - 端侧轻量化:研究如何在有限算力(如OrinX芯片)上运行7B+参数的大模型[17] - 多模态对齐:提升LiDAR点云、视觉与语言在复杂长尾场景下的语义一致性[17] - 法律与伦理:探索当VLM做出决策时,如何进行归因与定责[17]