广义端到端(GE2E)
搜索文档
上交最新!端到端&VLA综述:广义范式下的统一视角
自动驾驶之心· 2025-12-11 00:05
文章核心观点 - 上海交通大学AutoLab团队与滴滴联合发布综述《广义端到端自动驾驶的综述:统一视角》,旨在为当前看似割裂的自动驾驶技术路线提供一个统一的分析框架 [3] - 文章提出“广义端到端(GE2E)”概念,将传统端到端、以VLM为中心的端到端和混合端到端三大范式统一起来,认为它们都是解决“从原始传感器输入到最终驾驶决策”这一共同问题的不同表现形式 [4][14] - 行业技术正从传统的模块化架构向数据驱动的端到端范式演进,核心目标是实现“传感器信息输入,动作输出” [2][5] 技术范式统一与定义 - **广义端到端(GE2E)定义**:任何一种通过整体模型将原始传感器输入处理为规划轨迹或控制动作的模式,无论架构中是否包含视觉语言基础大模型(VLM) [4][14] - **三大统一范式**:基于GE2E定义,将现有技术路线归纳为传统端到端、以VLM为中心的端到端和混合端到端 [4][5] - **核心差异**:三种范式在场景表征方式、推理深度以及计算效率的权衡上侧重点不同,但并非割裂的技术路线 [14] 传统端到端范式 - **核心特点**:基于3D场景表征(如BEV或Occupancy),利用对场景的结构化理解进行精确轨迹规划,系统集成度高、执行效率快,是目前车企落地最广泛的实战派 [9][17] - **主要分支**: - **纯规划端到端**:直接从图像/LiDAR映射到规划控制信号,近期研究重点包括多模态融合、生成式建模(如扩散模型)和高效性优化(如轻量化网络、Mamba架构) [18] - **多任务端到端**:引入感知和预测等中间任务,提供更丰富的监督信号,以强化对场景动态的理解,促使更安全鲁棒的规划 [19] - **优势与局限**:优势在于减少模块间信息丢失和误差累积,在结构化场景下稳定性强;局限在于依赖预定义的几何先验且缺乏通用世界知识,面对未见过的长尾场景时泛化能力受限 [9][10] 以VLM为中心的端到端范式 - **核心特点**:利用在大规模互联网数据上预训练的视觉-语言模型作为核心,将驾驶任务转化为多模态理解与推理问题 [11] - **优势**:得益于模型内部丰富的世界知识和强大的推理能力,在开放世界场景中展现出卓越的泛化性与逻辑可解释性,是解决自动驾驶长尾场景的一条可能路径 [11] - **挑战**:相比于传统端到端模型,在生成轨迹的物理精度上存在局限;巨量参数导致高额推理延迟,难以部署到高实时要求的真实驾驶场景 [11] - **研究重点**:包括视觉-语言对齐与时空理解、推理能力(如思维链、RAG)、规划与动作策略落地、以及学习策略与效率优化(如知识蒸馏、强化学习) [30][33][34][35][36][37] 混合端到端范式 - **设计理念**:结合传统端到端的“快直觉”(执行效率高、轨迹精度高)与VLM的“慢推理”(认知能力强),实现优势互补,是当前平衡性能与效率的有效路径 [12][13][38] - **实现方式**: - **在线分层协同**:在推理阶段,VLM作为高层推理引擎指导传统E2E模型,可在感知级或规划级进行融合 [38][39][40] - **离线知识迁移**:在训练阶段利用VLM作为教师模型,通过蒸馏技术将知识注入轻量级E2E学生模型,实现零推理成本增量 [42][43][44] 数据集演进趋势 - **语义化革命**:新一代数据集包含大量自然语言描述和问答对,旨在教会模型理解复杂的交通语境、因果逻辑及人类驾驶意图 [46] - **思维链引入**:数据集转向包含思维链的详细标注,要求不仅给出驾驶动作,还要给出完整的逻辑推导过程 [47] - **生态爆发**:基于nuScenes等经典数据集进行二次开发的图文对数据成为主流,社区正爆发式构建各类带有推理标注的Benchmark [48] - **数据规模示例**:DriveLM-CARLA数据集包含183K帧图像和3.7M个问答对;LMDrive数据集包含3M帧图像和528K个问答对 [50] 不同范式的性能表现 - **开环性能**:在nuScenes、NAVSIM等开环测试中,混合端到端范式表现最佳,证明了VLM带来的世界知识对处理长尾场景、提升规划上限的关键作用;传统端到端算法在数值轨迹预测精确度上依然占据统治地位,在nuScenes前十名中占绝大多数席位;顶尖算法在NAVSIM上的评分甚至超过了人类驾驶员 [54] - **闭环性能**:在Bench2Drive、CARLA Town05 Long等更接近真实驾驶的闭环测试中,传统端到端范式占据绝对主导地位;在Bench2Drive中,最高的路线完成率仍未突破70%,表明长程多样化驾驶任务仍是系统瓶颈 [55] - **VLA范式短板**:在闭环测试中表现稍逊,主要原因是缺乏对细粒度轨迹控制的精确理解能力,难以把握其生成轨迹对环境产生的连续影响 [56] 行业面临的核心挑战 - **长尾数据难题**:现实驾驶场景呈极端长尾分布,决定系统安全的1%稀缺Corner Case(如极端天气、异形车辆)数据获取与消化效率低下;AI模拟数据存在“虚实鸿沟”,VLM微调时易出现“灾难性遗忘” [61][62] - **可解释性信任危机**:传统E2E模型是“黑盒”,缺乏中间可解释性;引入VLM后可能出现思维链推理与规划动作“言行不一”的问题 [63] - **安全与效率平衡**:为兜底安全而外挂基于规则的后处理模块,破坏了端到端的纯粹性,可能导致车辆行为过度保守 [64][65] - **实时性效率焦虑**:VLM参数量庞大,自回归生成机制导致巨大推理延迟;现有优化手段(如蒸馏、剪枝)往往以牺牲模型鲁棒性为代价 [66][67][68] 未来技术发展方向 - **强化学习进阶**:模仿学习预训练结合强化学习后训练将成为主流,使AI能在虚拟环境中通过试错探索,学会在陌生场景中做出最优决策 [70] - **基础模型应用**:基于海量通用数据预训练的VLM基础模型,将为车辆注入世界知识和常识推理能力,成为处理长尾场景的终极武器 [71][72] - **智能体分层架构**:构建类人的分层系统,LLM/VLM作为“大脑”负责慢思考与复杂推理,专用小模型作为“身体”负责快直觉与毫秒级控制执行 [73][74] - **世界模型发展**:让AI具备基于当前状态“预演”未来环境演变的能力,可用于零成本虚拟试错和利用无标签视频进行自监督学习 [75] - **跨模态深度融合**:下一代模型将深度融合LiDAR/深度信息与RGB视觉,兼具语义理解力和3D几何感知精度 [76] - **自动化数据引擎**:构建问题驱动的自动化数据闭环,自动挖掘模型失败的Corner Case、生成场景并训练迭代,从“堆量”转向“提质” [77]