文章核心观点 - 行业当前致力于解决安全且经济的 corner case 问题 [1] - 技术路线存在三大核心争议:单车智能与智能网联、视觉与激光雷达传感器、模块化与端到端算法架构 [1] - AI决策领域呈现VLM、VLA、WA(去LLM)三种主流技术路径分化,代表企业分别为Waymo、特斯拉/吉利/小鹏、华为 [1] - 自动驾驶技术演进遵循从规则系统到数据驱动,再到认知建模的路径 [3] 技术演进与架构 分阶段模块化架构 - 传统架构划分为感知(定位)、预测、规划、控制五大独立模块 [5] - 感知模块负责处理图像与点云数据,完成目标检测与地图分割任务 [5] - 定位模块融合GPS、IMU及地图匹配技术以确定车辆精确位置 [5] - 预测模块在几何空间内运行,预测周围环境未来状态(如车辆轨迹) [5] - 规划模块结合导航与感知信息,在有限时间内生成安全舒适的可行驶轨迹 [5] - 控制模块精确执行油门、刹车及转向指令 [5] BEV与OCC感知技术 - BEV感知于2022年成为主流,OCC感知于2023年兴起 [3] - BEV核心价值在于统一多传感器数据的表征空间,解决信息融合根本问题 [14] - BEV优势包括天然适配动态/静态感知、快速替代传统检测方案、99%常规场景可收敛 [15] - BEV缺陷体现在非结构化场景与超复杂路口(150米+)存在瓶颈,暴露纯几何表征天花板 [15] - OCC占用网络提供时间维、空间维及不确定性数据,优于仅提供目标检测的BEV [6] - 为解决BEV高度信息缺失及LSS投影缺陷(离散稀疏、不连贯、无容错),行业引入3DGS技术 [16][17] - 3DGS通过"软投影"特性实现连续致密特征、平滑过渡及容错能力,提升BEV感知质量 [18][19] 端到端自动驾驶 定义与分类 - 端到端系统定义为从传感器原始输入到任务变量输出的完全可微过程 [20][22] - 狭义端到端指传感器数据直接输出规划/控制动作或行驶轨迹 [22] - 技术演进分为四个阶段:感知端到端、决策规划模型化、模块化端到端、One Model单一模型端到端 [31] - 模块化端到端(华为、小鹏、理想采用)实现感知与规划模块的梯度协同训练,接口基于特征向量 [31] - One Model端到端(特斯拉采用)采用单一深度学习模型直接映射原始信号至轨迹输出 [31] 优势与挑战 - 端到端本质是实现感知信息的无损传递,通过梯度反传实现全局优化 [22][25] - 传统分阶段架构问题在于各模块独立优化导致的阶段目标不一致、误差累积及计算负担 [27] - 端到端面临可解释性悖论(性能提升但安全性可解释性降低)、数据规模与质量要求高、长尾场景覆盖度不足三大挑战 [27][28] - 决策层技术路线包括模仿学习(快速获得基础能力但泛化性不足)与强化学习(学得鲁棒策略但依赖仿真环境) [29] VLM、VLA与WA技术路径 VLM(视觉语言模型) - VLM让AI负责环境理解与推理,最终决策权交由传统模块以确保过程可控,代表企业为Waymo [1][35] - 技术流程为环境信息输入→VLM→推理链/多任务→非直接控制输出,运行频率低(2-5 Hz) [36] - VLM能够解释复杂交通场景并提升系统可解释性,但存在"行动鸿沟",即语言输出与实际控制脱节 [36] - 输入数据包括视觉输入(多摄像头图像、BEV特征图)、Prompt指令、导航指令及用户指令 [36] VLA(视觉语言动作模型) - VLA试图让AI直接学习所有驾驶技巧,通过海量数据训练实现"端到端"决策,代表企业为特斯拉、吉利、小鹏 [1][39] - 技术流程为环境信息输入→多模态编码器→LLM/VLM→动作解码器→驾驶动作,形成感知推理行动闭环 [40] - 语言输入演进历经直接导航指令、环境查询、任务级指令至对话式推理四个阶段 [42] - 动作解码器可采用自回归令牌器、扩散模型头或分层控制器生成控制信号或轨迹点序列 [42] - 小鹏第二代VLA为商业应用代表,技术发展历经语言模型作为解释器、模块化VLA、统一端到端VLA、推理增强VLA四个阶段 [44][48] WA(世界动作模型)与路线之争 - 华为ADS 4采用WEWA架构(世界引擎+世界动作模型),强调无需语言组件,直接建立时空认知能力 [1][52][55] - WEWA架构核心逻辑为视觉直接映射动作,跳过语言转化环节,关键指标为端到端时延降低50%、重刹率降低30% [56] - VLA架构核心逻辑为视觉-语言-动作三级传导,以语言为中介,优势在于复杂场景决策准确率提升及支持自然语言交互 [56] - 语言模型价值在于跨场景知识迁移能力(如预训练模型规划误差降低27.12%)、多模态信息统一表征及决策可解释性 [57] - 技术路线核心差异在于是否依赖语言抽象,VLA依赖语言模型归类场景,而WEWA主张直接学习时空物理规律 [55][57]
自动驾驶三大技术路线:端到端、VLA、世界模型
自动驾驶之心·2025-11-21 00:04