视觉 - 语言 - 动作(VLA)

搜索文档
不管VLA还是WM世界模型,都需要世界引擎
自动驾驶之心· 2025-09-13 16:04
端到端自动驾驶定义 - 学习单一模型直接将原始传感器输入映射到驾驶场景并输出控制指令 取代传统模块化管道 [3] - 训练流程包括监督学习 模仿学习或强化学习 通过大量标注数据或奖励设计实现 [3] - 涵盖当前VLA和世界模型等技术方向 属于自动驾驶算法最广概念 [6] 技术发展路线 - 从20多年前黑白图像输入起步 经历条件模仿学习 泛化 可解释性网络等阶段 [8] - 当前处于1.5代端到端自动驾驶阶段 基于基础模型解决长尾问题 [10] - 分化出两大分支:世界模型分支(扩散管道/视频生成模型)和VLA分支(大型语言模型应用) [11] 世界模型分支技术 - 包含Drive Dreamer Cosmos Predict One和导航世界模型等具体应用 [11] - Gaia 2作为视频生成模型 利用多视图图像预测不同类型视频 提升驾驶安全性与自动化 [11] - 通过多模态动作预测实现真实感和多样性生成 [11] VLA分支技术 - Java LM采用"草图维基"方式增强驾驶场景理解 [11] - Lingo Tool和Job VRM利用基础模型提升准确性 但存在延迟较高问题 [11] - 通过大小模型协同工作预测多数情况 优化系统性能 [11] 部署挑战与数据需求 - 需要处理大量生产问题和工程工作 进入第二代发展阶段 [14] - 特斯拉FSD追踪器显示MPI指标年度增长 数据量增加使模型持续优化 [18] - 剩余20%长尾问题需海量数据 危险案例收集成本昂贵且可能危及生命 [18] 世界引擎解决方案 - 通过极端情况生成和安全关键场景构建 大幅降低数据收集成本 [21] - 包含数据引擎和算法引擎 生成大量训练场景并改进端到端算法 [24] - 通过环境交互与行为建模 实现从失败中学习并优化规划器 [21] 技术路径对比 - 世界模型概念覆盖范围更广但实施存在不确定性 [25] - VLA被视为更切合实际的技术路径 世界模型为终极目标 [25] - 需警惕概念包装与实际技术内容不符的情况 [25]
全球首个自动驾驶VLA综述重磅发布:VLA自驾模型全面拆解~
具身智能之心· 2025-07-03 08:22
自动驾驶范式演进 - 端到端自动驾驶模式将传感器输入直接映射到驾驶动作,架构为环境信息输入→端到端网络→驾驶动作,但存在可解释性差和难以处理长尾场景的问题 [3] - 用于自动驾驶的视觉语言模型引入语言理解和推理能力,架构为环境信息输入→VLM→推理链/多任务→非直接控制输出,提升了系统可解释性和泛化能力,但存在语言输出与实际控制脱节的行动鸿沟 [3] - 视觉-语言-行动模型是当前最前沿范式,在统一策略中融合视觉感知、语言理解和动作执行,架构为环境信息输入→多模态编码器→LLM/VLM→动作解码器→驾驶动作,能理解高级指令、推理复杂场景并自主决策 [3] VLA4AD架构范式 - 多模态输入包括视觉数据(从单前视摄像头发展到多摄像头环视系统)、其他传感器数据(激光雷达、雷达、IMU、GPS及本体感知数据)和语言输入(从直接导航指令演进到对话式推理和语音指令) [9] - 核心架构模块包含视觉编码器(使用DINOv2或CLIP等大型自监督模型)、语言处理器(使用LLaMA2或GPT系列模型并通过指令微调适应领域)和动作解码器(通过自回归令牌器、扩散模型头或分层控制器生成控制输出) [7][9] - 驾驶输出形式从低阶控制(如方向盘转角、油门刹车信号)演进为高阶规划(如轨迹或路径点),后者具有更好可解释性、拓展能力和长时程推理能力 [10][18] VLA模型发展阶段 - 阶段一(语言模型作为解释器)采用冻结视觉模型和LLM解码器生成场景描述,代表工作DriveGPT-4可生成高阶操纵标签或场景描述,但存在延迟问题和效率低下局限 [16][22] - 阶段二(模块化VLA模型)将语言作为主动规划组件,代表工作包括OpenDriveVLA生成可读中间路径点、CoVLA-Agent将动作Token映射到轨迹、DriveMoE动态选择子规划器、SafeAuto引入符号化交通规则验证计划 [19][22] - 阶段三(统一端到端VLA模型)构建单一网络直接映射传感器输入到控制信号,代表工作包括EMMA联合执行检测和规划、SimLingo/CarLLaVA通过行动构想技术耦合语言与轨迹、ADriver-I利用扩散技术预测未来画面 [20][22] - 阶段四(推理增强VLA模型)将LLM置于控制环路核心进行长时程推理,代表工作ORION结合记忆模块输出轨迹和解释、Impromptu VLA通过思维链对齐行动、AutoVLA融合CoT推理和轨迹规划 [21][22] 数据集与基准 - BDD100K/BDD-X提供10万个真实驾驶视频和7千个带文本解释片段,被CoVLA-Agent和SafeAuto等模型采用 [25][27] - nuScenes包含1000个场景的多传感器数据,是VLA4AD模型综合评估的重要平台 [25][33] - Bench2Drive是基于CARLA的闭环驾驶基准,包含44种场景和220条路线,DriveMoE通过混合专家架构在该基准领先 [25][33] - Reason2Drive提供60万个带思维链风格问答的视频-文本对,并引入一致性评估指标 [25][33] - Impromptu VLA专注边缘场景,包含8万个驾驶片段并配有专家轨迹和问答对,能显著提升闭环安全性 [25][33] - DriveAction包含2600个场景和1.62万个带动作标签的问答对,提供基于人类偏好决策的评估协议 [25][33] 挑战与未来方向 - 六大挑战包括鲁棒性与可靠性(语言模型幻觉和环境噪声问题)、实时性能(30Hz计算瓶颈和模型优化需求)、数据与标注瓶颈(三模态数据稀缺和合成数据局限)、多模态对齐(以摄像头为中心和融合技术不成熟)、多智能体社会复杂性(协作难题和交通语言缺失)以及领域自适应与评估(泛化能力不足和标准缺失) [30][31][32][34][35] - 五大未来方向包括构建基础驾驶大模型(GPT风格骨干网络)、开发神经-符号安全内核(结合神经网络灵活性和符号逻辑可验证性)、实现车队级持续学习(通过语言片段描述新情况)、建立标准化交通语言(定义规范意图集)以及提升跨模态社交智能(理解手势和声音等非语言线索) [36][38]