Vision-Language Model (VLM)
搜索文档
最近做 VLA 的一些心得体会
自动驾驶之心· 2025-12-11 00:05
视觉语言模型在自动驾驶应用中的核心挑战与解决方案 - 文章核心观点:视觉语言模型在自动驾驶领域展现出潜力,尤其在可解释性方面具有优势,但其在落地应用前仍需克服幻觉、3D空间理解不足和速度慢等关键挑战,行业正通过改进感知范式、训练任务、模型交互和推理过程来应对这些问题[3] VLM应用于AD的主要问题与改进方向 - 幻觉问题具体表现为无中生有和视而不见,其根源在于静态感知,解决方案包括转向动态感知、通过多次校验或DPO减少训练数据及模型产生的幻觉、以及允许模型“回头放大看看”[3] - 3D空间理解能力不足源于预训练任务多为2D,解决方案是在训练时加入空间定位任务,例如混合具身数据,研究证明额外使用3D感知和PnC轨迹生成模块效果更好[3] - 速度慢是主要瓶颈,可通过KV Cache、Visual token压缩、以及通过混合数据和强化学习让模型学会“按需思考”并根据提示调节思考深度来优化[3] VLM在自动驾驶中的技术评估与学习范式 - 从学术评估指标看,VLA方案与基于Diffusion的方案效果不相上下,VLM的核心优势在于其可解释性[3] - 学习范式需要从模仿学习转向偏好学习,在强化学习阶段,多任务同时训练比单任务分阶段训练效果更好[3] - 防止基础模型发生灾难性遗忘的最简单有效方法是增加预训练数据[3] 提升VLM模型性能的技术路径 - 提供更丰富的监督信号有助于模型学到更好的表征,具体方式是在VLM基础上增加其他任务头,如预测下一帧画面、3D占据与流、物体检测、交通信号灯识别等,这种方式有助于实现缩放定律[3] - 思维链技术很重要,但在海量数据下应用不易,除了纯文本形式,多模态思维链正在兴起[3] - 目前VLM中视觉与语言的交互不足,限制了其作为基础模型的效果,改善思路是增强视觉-语言交互,例如Qwen3-VL使用Deepstack将图像token输入到LLM的不同层,或引入图像生成的辅助任务[3] 轨迹生成与模型评估的现状 - 轨迹的输出方式不重要,无论是VLM直接以文本输出、输出特殊token映射为轨迹,还是接扩散头生成轨迹,效果都不错,工业界主要采用扩散头生成轨迹,因其速度最快[3] - 评估面临挑战,闭环测试指标比开环差,原因包括训练目标与在线部署目标不一致,以及训练时的离线传感器数据与测试时实时观测数据分布不同[3] 关于思维链的深入探讨 - 是否需要推理时也加入视觉思维链?研究指出,仅用图像生成做思维链对视觉规划任务的指标和泛化性都有提升,例如FSDrive用图像思维链代替文本思维链可提升场景理解并降低碰撞率[3] - 让模型在思维链过程中调用工具能取得更好效果,例如调用视角、查看历史、放大、测距等[3] - 目前VLM添加思维链后在AD中效果不佳的原因包括:思维链质量不高、因果关系不强;测试集不够复杂;以及VLM基础模型本身因视觉-文本对齐不佳而无法拥有LLM的优良特性[3]