超越ORION!CoT4AD:显式思维链推理VLA模型(北大最新)
自动驾驶之心·2025-12-02 00:03

文章核心观点 - 提出一种名为CoT4AD的新型视觉-语言-动作模型,该模型将思维链推理引入端到端自动驾驶领域,旨在解决现有VLA模型数值推理能力有限和输入-输出映射过于简化的问题 [1] - 该框架通过整合视觉观测和语言指令,实现语义推理、场景理解与轨迹规划,在训练阶段构建“感知-提问-预测-动作”的显式思维链,推理阶段则通过隐式思维链实现稳健决策 [1][3] - 在真实世界数据集nuScenes和仿真数据集Bench2Drive上的实验表明,CoT4AD在开环和闭环评估中均取得了最先进的性能,验证了其有效性 [1][6][10] 技术背景与挑战 - 传统模块化自动驾驶系统面临误差累积、跨模块优化困难及泛化能力有限等问题,端到端自动驾驶范式应运而生,旨在利用统一学习框架直接从传感器输入预测驾驶信号 [2] - 随着大规模视觉-语言模型的发展,视觉-语言-动作模型展现出处理多模态输入和更强可解释性的潜力,但其继承了VLMs的固有缺陷,即在复杂环境中数值推理能力较弱 [2][3] - 现有方法将大语言模型视为从感知到数值输出的单一映射器,忽视了其多步推理能力,导致在需要逐步因果推理的复杂驾驶场景中性能一般 [1][3] CoT4AD框架核心设计 - 框架整合了环境感知、语言推理、未来预测和轨迹规划,通过多阶段训练过程培养适用于自动驾驶的思维链推理能力 [6] - 在3D环境感知方面,采用以特征为中心的感知训练方式,通过多视图图像输入和BEV空间投影,生成包含静态元素和动态目标的全面环境表示 [7][8] - 提出视觉-语言提示微调方法,引入跨阶段无关token作为可学习的离散化token,用于编码视觉细节并贯穿思维链推理的不同阶段,以提升多模态感知与语言推理的融合效果 [11] - 采用VLM条件潜在扩散模型进行未来场景预测,通过在潜在空间进行扩散建模避免高维像素空间的计算负担,使模型能学习未来场景预测并增强对场景语义和物理规律的理解 [12] - 思维链轨迹规划阶段直接在动作空间进行扩散,利用扩散Transformer以带噪声动作和条件嵌入为输入,预测去噪后的轨迹,实现高效规划 [13] 实验结果与性能 - 在nuScenes数据集的开环评估中,CoT4AD在1秒、2秒、3秒时域下的L2距离误差分别为0.12米、0.24米、0.53米(平均0.29米),平均碰撞率为0.10%,性能显著优于OpenDriveVLA、EMMA等最新VLM方法 [17] - 在Bench2Drive数据集的闭环评估中,CoT4AD-CoT版本的驾驶得分高达81.22,成功率达55.78%,超过ORION、DriveTransformer-Large等基线方法,且在效率和舒适性方面实现平衡 [18][19] - 与UniAD的定性对比显示,CoT4AD在避障变道和超车机动等复杂场景下能生成更平滑、连续的轨迹,并更早识别驾驶意图,展现出更强的时序推理和高层语义理解能力 [21][23][25] 消融研究与关键发现 - 感知Tokenizer的有效性研究表明,结合基于感知标签的Tokenizer和基于视觉特征的Tokenizer能取得最优闭环指标,表明感知标签提供环境指导,而图像特征保留更完整语义,二者结合可增强整体性能 [26][27] - 思维链设计的消融实验证明,感知模块、VQA模块和未来扩散模块三者相辅相成,结合所有模块的模型取得最优性能(驾驶得分80.24,成功率55.22%),其中未来预测模块对性能提升贡献最大 [28] - 未来场景预测数量的研究表明,预测4个未来场景时模型性能达到峰值(成功率55.78%),超过此阈值则因信息过载导致性能下降,表明需在信息量与模型负担间找到平衡 [29] 总结与意义 - CoT4AD通过“感知-视觉问答-扩散-规划”的多步推理流程,在视觉空间、推理空间与动作空间间实现了更好的对齐,能够为驾驶任务提供更平滑、更精准的规划 [30] - 该工作为自动驾驶领域引入了量身定制的思维链推理机制,显著提升了模型在动态、大规模且安全关键环境中的数值推理、长时域规划和稳健泛化能力 [3][10]