Workflow
端到端自动驾驶
icon
搜索文档
以理想汽车为例,探寻自动驾驶的「大脑」进化史 - VLA 架构解析
自动驾驶之心· 2025-12-07 02:05
自动驾驶技术范式演进 - 行业技术范式快速迭代,从前年的BEV(鸟瞰图视角)到去年的“端到端”(End-to-End),再到2025年的技术焦点VLA(视觉-语言-行动)模型 [1][6] - 传统的端到端(VA)模型存在“黑箱”问题,系统能做出正确操作但缺乏可解释性,引发了信任危机 [1] - 视觉语言模型(VLM)能理解和解释场景,但存在“行动鸿沟”,其输出停留在语言层面,无法直接控制车辆 [3] - VLA模型是一场彻底的范式革命,旨在融合计算机视觉、自然语言处理和强化学习,打造一个既能感知、理解又能执行动作的“可解释的大脑” [6][45] “真”端到端架构辨析 - 一个“真”的端到端驾驶系统必须是一个统一的、完整的神经网络,接收原始传感器输入并直接输出可执行的控制信号,且具备“全程可求导”特性 [8][9] - VLM的引入从架构上“打断”了端到端的闭环,因为其输出是文本而非可执行的轨迹,导致学习信号无法从车辆动作反向传播到VLM,无法受益于自动化的数据闭环驱动 [11][12][13][15][16] - 行业早期的“快慢双核”系统(如理想汽车IM智驾系统)是“半”端到端的过渡形态,它将VLM(慢系统)与传统的VA模型(快系统)拼凑,存在异步冲突、架构臃肿和信息损失、优化困难等致命缺陷 [17][18][20][21][22][26] - VLA是“真”端到端,它回归了从传感输入到轨迹输出的统一神经网络形式,实现了“全程可求导”,驾驶错误信号可以无阻碍地反向传播至整个模型,从而支持高效的数据驱动迭代 [23][25][27] VLA解决的核心痛点 - VLA旨在解决“快慢双核”架构暴露的四大核心痛点:长尾场景挑战、语义鸿沟、空间精度不高、时序建模瓶颈 [31] - 自动驾驶的最大挑战是高度语义化、非标准化的“长尾场景”,如复杂的龙门架、可变车道、临时指示等,传统VA模型无法处理 [32][33][34][35][37] - VLM虽然能理解长尾场景,但其输出的文本与车辆控制器所需的精确数值向量之间存在“语义鸿沟”,导致“行动鸿沟” [36][38][39] - 强行让VLM输出轨迹会导致空间精度不高,其基于语言生成的轨迹点易产生偏差,无法满足高精度控制要求 [40] - VLM在处理时序任务时采用叠加多帧图像的方法,会受到Token长度限制(如8K上下文窗口仅能处理约16帧,约2秒历史)和巨大计算开销的制约,无法进行长时程规划 [41][42][43][44] VLA的通用技术栈 - VLA模型通常由三个核心技术组件构成:视觉编码器(V)、语言编码器(L)和动作解码器(A) [46] - 视觉编码器是VLA的“眼睛”,负责将原始图像转换为LLM能理解的视觉令牌,主流方案包括CLIP/SigLIP和DINOv2 [48] - CLIP/SigLIP提供强大的视觉-文本对齐能力,擅长识别和描述图像内容(“是什么”) [49][51][52] - DINOv2通过自监督学习提供强大的空间理解和高级视觉语义能力(“在哪里/怎么样”) [52] - 顶尖方案(如OpenVLA)采用SigLIP + DINOv2双编码器并联,融合两者特征后通过MLP投影器对齐到LLM的令牌嵌入空间,提供全面的视觉信息 [53][55][56] - 理想汽车MindVLA采用了另一条技术路线,其V模块基于3D高斯建模进行自监督3D编码器预训练,旨在生成高保真的3D场景表示 [57][59][60] - 语言编码器是VLA的“大脑”和决策中枢,负责融合视觉与文本令牌并进行跨模态推理 [62] - 主流选择包括LLaMA家族(如LLaMA-2、Vicuna)和Qwen系列(如Qwen-2.5) [63][64][66][70] - 其工作流程是接收来自V模块的视觉令牌和用户文本指令,通过自注意力计算进行高级推理(如场景分析、动作推理),最终输出高度浓缩的“动作令牌”或“规划令牌”作为意图指令 [67][69][71][72] - 部署优化策略包括LoRA(低秩适应)轻量化微调和MoE(混合专家)架构,理想汽车MindVLA则自研了名为MindGPT的LLM,专为3D驾驶场景和车端实时推理设计 [73][74][75][79] - 动作解码器是VLA的“手脚”,负责将“大脑”输出的意图令牌解码为真实、物理、可执行的控制信号 [76][77][80] - 基于扩散的Transformer是目前最受青睐的“黄金标准”方案,因其擅长建模复杂多模态动作分布,能生成细粒度、平滑、“拟人化”的轨迹 [81][82] - 其他主流方案包括自回归Transformer头、MLP预测器头和嵌入式MPC/规划头 [86] - Diffusion模型通过“迭代去噪”工作,为满足实时性要求,MindVLA等架构采用了ODE采样器等技术将去噪步骤压缩到2到3步内完成 [82] VLA的四个进化阶段 - VLA架构的演进经历了四个清晰的阶段,语言在系统中的角色从被动“解释器”逐步演变为主动“决策核心” [84][85] - 阶段一:语言模型作为“解释器”(Pre-VLA),如DriveGPT-4,其核心目标是增强系统可解释性,输出场景描述或高阶操纵标签,但存在“语义鸿沟”,对实际驾驶帮助有限 [88][89][90] - 阶段二:模块化VLA模型,语言演变为模块化架构中主动的规划组件,如OpenDriveVLA、DriveMoE、RAG-Driver,通过生成可解释的中间表示来指导动作执行,但存在多阶段处理带来的延迟和级联错误风险 [91][92][93][94][97] - 阶段三:统一的端到端VLA模型,在一个单一、可微分的网络中无缝整合感知、语言理解和动作生成,代表作包括EMMA、LMDrive、CarLLaVA和SimLingo,它们通过“行动构想”等技术在语言理解和轨迹输出间建立紧密耦合,反应灵敏但长时程规划和细粒度决策解释能力仍存局限 [95][96][98][99][100][101] - 阶段四:推理增强的VLA模型,这是最新前沿阶段,将VLM/LLM提升为系统的“决策核心”,赋予其“思考”能力,代表作如ORION、Impromptu VLA和AutoVLA,它们将“思维链”与“行动”进行端到端对齐,在输出动作前先进行解释、预测和长时程推理,预示了“可对话的自动驾驶汽车”的未来,但也带来了实时性、记忆索引和安全验证等新挑战 [102][103][104][106]
端到端时代下的自动驾驶感知
自动驾驶之心· 2025-12-05 00:03
自动驾驶技术范式转变:从模块化到端到端 - 行业技术热点已从BEV感知迅速转向端到端自动驾驶方案 [4] - 端到端并非新技术,早期因效果不佳而让位于模块化架构,但随Transformer与BEV发展正强势回归 [9] - 主流方案正将规划模块神经网络化,形成一段式或两段式端到端架构 [9] 端到端架构下的感知范式革命 - 传统感知-规划框架中,感知需提供全量、精确的场景信息供规划使用,因模块化设计使其无法获知规划具体需求 [11] - 端到端最大意义在于实现“规划导向”的感知,即从全量感知转向可学习的按需感知 [14] - 当前多数端到端方案仍沿用传统思路,将人为定义的感知任务作为辅助监督,这被视为感知模块的“手工特征算子”,可能限制模型上限 [13][14] - 感知模块需自我革新,摒弃对人为定义感知任务的依赖,转向可学习的隐式场景理解 [14] 导航引导的稀疏场景表征 - 提出“导航引导感知”概念,模仿人类驾驶员根据导航意图关注场景不同部分,而非进行全量感知 [17] - 基于BEV特征设计场景令牌学习器模块,引入导航信息并预测BEV注意力,将场景压缩为16个场景查询 [18][19] - 规划解码器仅与这16个查询交互即可输出轨迹,实现了对感知信息的极致压缩与高效利用 [19] - 该方案使模型在训练效率和推理速度上成倍提升,并大幅超越现有方案性能 [19] 世界模型作为隐式监督新方向 - 为减少对人为定义感知任务的依赖,引入基于BEV特征的自监督世界模型,通过预测未来帧特征增强场景理解 [20] - 设计在稀疏查询上做轨迹规划,在稠密BEV上做世界模型的方案,兼顾推理效率与训练一致性 [20] - 随着世界模型研究成熟,其有望完全替代人为感知任务,成为隐式场景表征最可靠的监督方式 [21] SSR方案性能与影响 - SSR框架仅用16个自监督可学习的查询作为场景稀疏表征,替代了传统方案中成百上千个人为监督的查询 [22] - 在nuScenes数据集开环测试中,SSR的3秒平均L2误差为0.75米,平均碰撞率为0.15%,推理速度达19.6 FPS,多项指标超越对比方案 [24] - 在Carla仿真闭环测试中,SSR的驾驶得分达78.9,路线完成率达95.5%,综合得分0.83,表现优异 [26] - 消融实验表明,使用16个场景查询在性能与效率间取得最佳平衡 [27] - 可视化显示场景查询能根据不同导航指令自适应关注与驾驶意图相关的区域,证明了可学习感知模块的有效性 [28] - 该方案被视为端到端感知的“AlexNet时刻”,标志着可学习感知模块首次大幅超越人为定义感知模块,可能引导行业新方向 [29]
特斯拉为什么现在不选择VLA?
自动驾驶之心· 2025-12-02 00:03
特斯拉FSD技术架构分析 - 特斯拉在ICCV分享的最新FSD技术架构仍属于大号端到端模型[3] - 行业前沿的VLA架构在机器人领域流行但特斯拉未采用引发技术路线讨论[3] 机器人与自动驾驶任务目标差异 - 机器人需理解通用语言指令完成任务目标而自动驾驶核心是导航任务[4] - 自动驾驶可直接获取高德或百度导航地图底层数据实现精确路径规划比语言表征更高效[4] 机器人与自动驾驶作业环境差异 - 自动驾驶在规则明确的道路上行驶场景相对单一复杂任务拆解需求少[4] - 驾驶操作多为本能反应无需语言分析仅在特殊场景调用VLM模型类似人类大小脑协作机制[4] 硬件限制对技术选择的影响 - 端侧硬件算力普遍低于1000 TOPS无法支持几B参数语言模型确保安全[5] - 视觉到语言再到动作的转换流程会浪费算力增加延迟百公里车速下0.1秒偏差即可导致车辆偏离车道[5] 特斯拉技术路径的优化策略 - 采用快慢思考逻辑端到端模型与VLM协同工作[5] - 绝大部分场景由端到端模型处理仅交规或非结构化道路等少数场景减速调用VLM[5]
英伟达又一新作!MPA:基于模型的闭环端到端自适应策略新框架(CMU&斯坦福等)
自动驾驶之心· 2025-12-01 00:04
文章核心观点 - 英伟达、CMU和斯坦福团队提出了一种名为基于模型的策略自适应(Model-based Policy Adaptation, MPA)的新型框架,旨在解决端到端(E2E)自动驾驶模型在闭环评估中面临的性能下降问题 [1][2] - MPA框架通过利用高保真3D高斯溅射(3DGS)仿真引擎生成反事实数据,并训练基于扩散模型的策略适配器和多步Q值模型,显著提升了预训练E2E驾驶智能体在部署阶段的鲁棒性、安全性和泛化能力 [2][7][11] - 在nuScenes基准数据集上的实验结果表明,MPA在域内场景、域外场景及安全关键场景中均显著优于多种基线模型,尤其在路线完成率和综合驾驶评分等关键指标上提升显著 [33][34][35] 技术背景与问题定义 - 端到端自动驾驶模型在开环评估中表现出色,但在闭环环境中会因微小偏差累积导致的级联误差和分布偏移而出现性能下降,核心挑战在于离线训练的经验风险最小化与在线部署的累积奖励最大化目标不一致 [3][6] - 现有闭环评估方法存在局限性,例如缺乏闭环评估结果、仅在非照片级真实感仿真器中进行评估,或训练成本高且未充分利用价值评判器,且尚无工作在训练阶段纳入经过筛选的反事实数据 [5] - 性能下降的根本原因被归结为观测不匹配(训练与部署阶段的传感器输入差异)和目标不匹配(离线模仿学习缺乏有意义的长期奖励反馈) [6][9] MPA方法框架 - MPA框架包含三个核心组成部分:基于世界模型的反事实数据生成、基于扩散模型的策略自适应以及Q值引导的推理时间采样 [14][16][24] - 反事实数据生成流程利用几何一致的3DGS仿真器,对预训练E2E策略的预测动作进行随机增强(旋转角度范围[-10, 10]度,扭曲比例范围[0.1, 1.0],随机高斯噪声标准差0.05),并通过类似波束搜索的算法筛选出奖励最高的候选轨迹 [16][18] - 策略适配器采用基于潜扩散过程的1D U-Net结构,以预训练基础策略的输出为条件,预测残差轨迹进行优化,推理阶段使用DDIM采样器生成多模态(例如8个模态)的适配后轨迹 [21][22][39] - 多步动作价值模型(Q值模型)基于四个可解释原则(碰撞、距离、路线、速度)独立训练,综合Q值为各单原则Q值的加权和,用于在推理阶段选择期望效用最高的动作 [25][26] 实验结果与分析 - 实验在nuScenes数据集和HUGSIM仿真基准上进行,评估分为域内场景(70个)、域外场景(70个)和安全关键场景(10个)三类设置 [27][30] - 主要评估指标包括路线完成率(RC)、无碰撞率(NC)、可行驶区域合规率(DAC)、碰撞时间合规率(TTC)、舒适性(COM)和综合HUGSIM驾驶评分(HDScore) [29][31][32] - 在域内场景中,基于MPA的智能体(如MPA(UniAD))的路线完成率(RC)达到93.6%,HDScore为66.4,显著优于其预训练基础版本UniAD(RC 39.4%,HDScore 19.4)及其他基线模型 [33] - 在安全关键场景中,MPA(VAD)的路线完成率(RC)达到96.6%,HDScore高达74.7,远超预训练VAD的RC(25.4)和HDScore(16.0),证明了其在对抗性挑战下的有效性 [35][36] 消融研究与组件分析 - 消融实验表明,反事实数据生成的轨迹推演步数规模对性能有正面影响,更长的推演步数能为价值函数训练提供更丰富的未来步监督信号,帮助Q值模型更准确地评估长时域收益 [38] - 策略适配器的模态数量从1增加到8时,性能显著提升,超过8后提升趋于平缓,表明适当增加模态数量能有效覆盖更多反事实行为模式 [39] - 移除Q值模型的不同组件(如路径跟随Qc、车道距离Qd、避撞Qcol、速度合规Qspeed)会导致相关指标急剧下降,验证了各组件对保障闭环安全与性能的必要性 [40][42] 结论与未来方向 - MPA框架通过系统性的反事实数据生成、策略适配和价值引导,成功地将预训练开环E2E驾驶智能体适配为安全且具有泛化能力的闭环智能体 [41][43] - 当前工作的局限性包括对3DGS渲染质量的依赖、价值与策略模型的解耦设计以及实验场景覆盖范围有限(仅基于nuScenes数据集) [44] - 未来工作方向包括将MPA应用于更多多样化驾驶数据集、探索在线强化学习以实现价值模型与策略适配器的联合训练,以及将MPA部署到多模态基础模型中以增强对严重分布偏移场景的推理能力 [44][46]
轻舟智航最新GuideFlow:端到端轨迹规划新方案
自动驾驶之心· 2025-11-30 02:02
文章核心观点 - 提出一种基于约束流匹配的新型端到端自动驾驶规划框架GuideFlow,旨在解决多模态轨迹生成中的模式崩溃问题,并通过显式约束嵌入确保轨迹的安全性和物理可行性 [2][3][9][10][11] - 核心创新在于将流匹配与基于能量的模型训练相统一,并直接将显式约束嵌入生成过程,同时引入驾驶激进度参数作为控制信号,实现对轨迹风格的精准调控 [3][11][33] - 在多个主流自动驾驶数据集上的实验验证了其有效性,特别是在高难度场景Navhard上取得了当前最优性能,EPDMS分数达到43.0 [3][15][37] 背景回顾 - 端到端自动驾驶已成为传统模块化流水线的有吸引力替代方案,通过构建可微分统一系统支持跨任务推理,减轻级联误差问题 [9] - 规划技术从单模态向多模态轨迹生成演进,但基于模仿学习的方法易出现模式崩溃,即多模态输出向单一主导模式收敛 [9][10] - 生成式方法如流匹配和扩散模型能表征完整轨迹分布,但采样过程的高随机性和方差给保证安全约束带来根本性挑战 [10] 算法详解 - 框架包含三个核心模块:感知条件速度场生成器、无分类器引导注入驾驶意图与风格、安全约束采样过程 [18] - 感知模块通过查询BEV特征生成智能体令牌和地图令牌,并利用交叉注意力操作实现场景条件建模 [20][21] - 采用无分类器引导训练框架,以概率掩码条件输入,并通过引导尺度控制条件信号对运动的影响强度 [22][23][24] - 约束生成通过三种互补机制实现:速度场约束主动修正运动方向,流状态约束采用类截断策略修正偏离路径,EBM流优化将约束执行融入能量图景 [25][28][29][31][32] 实验结果分析 - 在NavSim数据集的高难度子集Navhard上,集成评分器后GuideFlow取得SOTA性能,EPDMS得分达43.0,较此前最佳结果提升1.3分 [3][15][37] - 在Bench2Drive数据集上,GuideFlow的驾驶分数达75.21,成功率达51.36%,优于多数端到端自动驾驶基线模型 [35][39] - 在开环测试数据集NuScenes和ADV-NuScenes上,GuideFlow实现最低碰撞率,分别为0.07%和0.73%,在短时域预测中表现出高可靠性 [40][41] 消融实验 - 不同动态条件信号中,基于规划锚点引导的模型变体表现最优,EPDMS得分为29.0,驾驶分数达75.21 [43] - 三种约束生成模块均能提升性能,流状态约束和EBM流优化组合使用时效果最佳,EPDMS得分为27.1 [44][45] - 引入激进度评分作为风格条件可调节轨迹激进度,但无差别鼓励激进行为会损害安全约束,导致EPDMS评分下降 [45][46]
轻舟智航最新!GuideFlow:端到端轨迹规划新方案,超越一众SOTA......
自动驾驶之心· 2025-11-26 00:04
文章核心观点 - 北交&轻舟智航等团队提出新型端到端自动驾驶规划框架GuideFlow,基于Constrained Flow Matching显式建模流匹配过程,解决多模态轨迹生成中的模式坍塌问题[2][3] - 核心创新在于将显式约束直接嵌入流匹配生成过程,通过速度场约束、流状态约束和EBM流优化三种策略确保轨迹满足物理和安全约束[3][11] - 框架将驾驶激进度参数化为生成过程控制信号,实现对轨迹风格的精准调控,在主流驾驶基准数据集上取得当前最优性能,Navhard子集EPDMS分数达43.0[3][15][37] 背景回顾 - 端到端自动驾驶将感知、预测和规划构建为统一系统,支持跨任务推理并减轻级联误差问题,但传统单模态规划器无法反映驾驶场景不确定性[9] - 多模态规划方法基于模仿学习训练,因每个场景仅提供一条真实轨迹而出现模式崩溃,生成式方法虽提升多样性但难以保证约束满足[10] 算法框架 - GuideFlow包含感知条件速度场生成器、无分类器引导和安全约束采样三大模块,通过交叉注意力融合智能体令牌与地图令牌实现场景条件建模[20][21] - 采用无分类器引导训练框架,以概率掩码处理条件输入,通过引导尺度控制驾驶意图信号对运动的影响强度[23][24] - 约束生成模块中,速度场约束调整运动方向与参考方向对齐,流状态约束采用类截断策略修正偏离流路径,EBM流优化将约束执行融入能量图景[25][28][31] 实验结果 - 在NavSim数据集Navhard高难度子集上取得SOTA性能,EPDMS分数达43.0,较此前最佳结果提升1.3分[15][37] - Bench2Drive数据集上驾驶分数达75.21,成功率51.36%,优于UniAD、VAD等端到端基线模型[35][39] - 开环测试中,NuScenes数据集平均碰撞率0.07%,ADV-NuScenes数据集0.73%,在短时域预测中可靠性显著[40][41] 技术细节 - 消融实验显示规划锚点引导变体性能最优,EPDMS得分29.0,因锚点封装更丰富的决策信息[43] - 流状态约束与EBM流优化模块组合使用时性能最佳,EPDMS得分27.1,三种约束方法具有互补性[44][45] - 超参数敏感性分析表明,λ值超过0.1会过度干扰速度场,CF模块修正时机需平衡偏差修正与场景适应性[46][47]
博雷顿董事长陈方明:围绕“智能”发展 叩开矿山“系统智能化”大门
证券日报网· 2025-11-25 03:28
文章核心观点 - 博雷顿科技股份公司发布其“9M145E无人驾驶专用矿卡”新产品,该产品以无人驾驶为起点重构整车设计,标志着矿山生产模式从“局部自动化”向“系统智能化”转型的关键节点 [1] - 公司的发展策略将围绕“智能”展开,通过端到端大模型结合算力与单车智能,旨在提升矿山无人驾驶的安全性与运行效率,为公司的持续发展提供支撑 [1] 产品与技术革新 - 新产品“9M145E无人驾驶专用矿卡”取消了驾驶室,重构了力学结构并优化了动力系统与感知布局,以机器人化逻辑进行工程设计,显著提升了车辆在重载、长周期、全天候矿区运营场景下的稳定性与一致性 [1] - 该产品在零部件、传感器、通信方式等方面有诸多行业首创,研发目的是提升车辆可靠性和出勤率 [2] - 公司采用重视觉、轻地图方案,无需大量人力维护高精地图,降低了维护成本;依托AI生成数据,无需人工重复采图和标数据 [4] - 产品涵盖双目视觉、全光谱融合等创新技术,以及双冗余系统、智能故障管理等设计,安全性表现优异 [4] - 公司既是造车企业也是自动驾驶公司,这种软硬件深度结合能让无人驾驶性能更优 [4] 运营模式与效率提升 - 矿山自动化的核心难题在于多台车辆的协同作业,影响产能的主要因素是组织效率问题,如排队、等待、交叉冲突等 [2] - 博雷顿的调度系统以数据驱动的全局优化替代依赖个人经验的传统调度方式,改变了矿山的生产逻辑 [2] - 车辆的运行、维护、能耗和异常数据实时进入智慧调度系统,提升了运营风险、设备负荷和作业状况的可监测与预判性,这种“数字化透明度”成为矿区治理的新基础 [2] - 端到端自动驾驶的综合效率接近甚至部分场景超过人工,目标是实现个位数人员管理百台规模的自动驾驶车辆,显著降低用工人数并提升整体运营效率 [3] - 体系化智能产品具有低成本、部署快、上限高、软硬件深度融合、安全保障全面的优势 [4] 行业趋势与公司战略 - 矿山智能化转型不仅是技术升级,更在重塑产业链结构:设备制造商向系统能力提供者转型;能源供应与储能服务与场景绑定;数据能力成为重要资产;矿企人才需求从驾驶操作向系统管理与数字治理倾斜 [3] - 矿山智能化需要跨越机械、能源、算法与管理的综合能力,无人驾驶最终要以整体效率制胜 [3] - 公司未来战略重点向智能化车辆倾斜,自2025年起(注:原文“明年起”),每一台下线的车都将支持无人驾驶并采用线控底盘;到2026年,自制的矿卡将全部支持无人驾驶 [4] - 公司通过正向设计降低成本,方便客户后续升级,无需额外更换车辆 [4]
留给端到端和VLA的转行时间,应该不多了......
自动驾驶之心· 2025-11-25 00:03
课程核心观点 - 自动驾驶技术正从模块化量产算法向端到端和视觉语言动作模型演进,掌握相关前沿技术对职业发展至关重要 [1] - 行业端到端和视觉语言动作模型岗位即将饱和,为从业者留下的窗口期已不多 [1] - 推出《端到端与视觉语言动作模型自动驾驶小班课》和《自动驾驶视觉语言动作模型和大模型实战课程》,旨在帮助学员快速高效入门 [1] 自动驾驶视觉语言动作模型与大模型实战课程 - 课程聚焦视觉语言动作模型领域,内容涵盖从视觉语言模型作为自动驾驶解释器到模块化、一体化及当前主流的推理增强视觉语言动作模型 [1] - 课程配套理论基础梳理,包括视觉、语言、动作三大模块、强化学习、扩散模型等,并设有大作业章节指导学员从零搭建自己的视觉语言动作模型及数据集 [1] - 由学术界专家带队,适合刚接触大模型和视觉语言动作模型的学员 [1] 端到端与视觉语言动作模型自动驾驶课程 - 课程聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础,详细讲解鸟瞰图感知、大语言模型、扩散模型和强化学习 [9] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [9] - 由工业界专家带队,讲师为国内顶级主机厂算法专家,拥有端到端算法研发和产品量产交付经验 [9][11] 师资团队 - 讲师团队由学术界和工业界专家组成,包括清华大学硕士生、QS30高校博士等,在ICCV、IROS、EMNLP等顶级会议发表多篇论文 [6][8][11] - 团队拥有多模态感知、自动驾驶视觉语言动作模型、大模型Agent等前沿算法预研经验,并主持完成多项自动驾驶框架工具和产品量产 [6][8][11] - 一位讲师在GitHub上维护的自动驾驶与计算机视觉开源项目总Star数已超过2k [6] 目标学员与技术要求 - 学员需自备GPU,推荐算力在4090及以上 [12] - 要求具备一定的自动驾驶领域基础,熟悉基本模块,了解Transformer大模型、强化学习、鸟瞰图感知等技术概念 [13] - 需具备概率论、线性代数基础及Python和PyTorch编程能力 [13]
浙大一篇中稿AAAI'26的工作DiffRefiner:两阶段轨迹预测框架,创下NAVSIM新纪录!
自动驾驶之心· 2025-11-25 00:03
文章核心观点 - 提出一种名为DiffRefiner的全新两阶段轨迹预测框架,该框架融合了判别式轨迹提议与生成式扩散精炼,旨在解决端到端自动驾驶规划中的多模态挑战 [3][9] - 该框架通过基于Transformer的提议解码器生成粗粒度轨迹预测,再通过扩散精炼器进行迭代优化,显著提升了规划性能 [3][9] - 在NAVSIM v2和Bench2Drive两个公开基准测试中均达到当前最优性能,EPDMS分数为87.4,驾驶分数为87.1,成功率为71.4% [3][11][41][42] 技术背景与动机 - 传统单阶段回归方法在处理轨迹预测任务的多模态特性方面存在局限,易导致预测效果欠佳和泛化能力差 [7] - 基于扩散模型的生成式方法能学习未来运动的潜在分布,生成多样化轨迹,但依赖无结构噪声或固定锚点初始化,存在计算延迟和场景适应性不足的问题 [2][8] - 离散化解空间的方法(如基于评分的方法)随着锚点集规模增大会导致计算复杂度显著增加,限制其在延迟敏感系统中的应用 [7] DiffRefiner框架设计 - 采用粗到细的两阶段架构:第一阶段使用基于Transformer的提议解码器回归预定义轨迹锚点,生成粗粒度轨迹提议 [9][14][20] - 第二阶段引入条件扩散精炼器,对初始提议进行迭代去噪与优化,并设计了细粒度去噪解码器以增强场景适应性 [9][14][22] - 框架整合三个关键组件:以BEV为中心的感知模块、粗轨迹提议解码器和基于扩散的轨迹精炼器 [14] 关键技术创新 - 提出细粒度语义交互模块,通过交叉注意力和可变形注意力分层整合全局场景上下文与局部几何细节,实现轨迹与环境的精准对齐 [10][27][30] - 采用自适应门控网络动态融合全局场景表征与局部语义信息,平衡粗粒度上下文理解与精准空间对齐 [10][32] - 通过两阶段训练方案优化模型,采用赢者通吃策略选择最接近真实轨迹的预测进行损失计算 [34][36] 实验验证与性能 - 在NAVSIM v2开环基准测试中,EPDMS分数达到87.4,使用ResNet34骨干网络时相比之前最佳方法提升3.7%,使用V2-99骨干网络时提升1.6% [3][41] - 在Bench2Drive闭环基准测试中,驾驶分数达到87.1,成功率达到71.4%,相比之前最佳方法驾驶分数提升0.3,成功率提升2.3 [3][42] - 消融实验证实了各组件有效性,引入精炼器使EPDMS提升1.2,仅需一次去噪步骤即可实现接近最优性能,表明框架适用于实时系统 [43][50] 性能优势体现 - 在复杂交互场景中,该方法能更好地关注细粒度场景细节,减少与周围智能体的碰撞,并更严格地遵守地图约束 [51] - 该混合范式在大多数多能力指标上均取得持续提升,证明了其在多样化交互式驾驶场景中的鲁棒性和有效性 [42]
自动驾驶三大技术路线:端到端、VLA、世界模型
自动驾驶之心· 2025-11-21 00:04
文章核心观点 - 行业当前致力于解决安全且经济的 corner case 问题 [1] - 技术路线存在三大核心争议:单车智能与智能网联、视觉与激光雷达传感器、模块化与端到端算法架构 [1] - AI决策领域呈现VLM、VLA、WA(去LLM)三种主流技术路径分化,代表企业分别为Waymo、特斯拉/吉利/小鹏、华为 [1] - 自动驾驶技术演进遵循从规则系统到数据驱动,再到认知建模的路径 [3] 技术演进与架构 分阶段模块化架构 - 传统架构划分为感知(定位)、预测、规划、控制五大独立模块 [5] - 感知模块负责处理图像与点云数据,完成目标检测与地图分割任务 [5] - 定位模块融合GPS、IMU及地图匹配技术以确定车辆精确位置 [5] - 预测模块在几何空间内运行,预测周围环境未来状态(如车辆轨迹) [5] - 规划模块结合导航与感知信息,在有限时间内生成安全舒适的可行驶轨迹 [5] - 控制模块精确执行油门、刹车及转向指令 [5] BEV与OCC感知技术 - BEV感知于2022年成为主流,OCC感知于2023年兴起 [3] - BEV核心价值在于统一多传感器数据的表征空间,解决信息融合根本问题 [14] - BEV优势包括天然适配动态/静态感知、快速替代传统检测方案、99%常规场景可收敛 [15] - BEV缺陷体现在非结构化场景与超复杂路口(150米+)存在瓶颈,暴露纯几何表征天花板 [15] - OCC占用网络提供时间维、空间维及不确定性数据,优于仅提供目标检测的BEV [6] - 为解决BEV高度信息缺失及LSS投影缺陷(离散稀疏、不连贯、无容错),行业引入3DGS技术 [16][17] - 3DGS通过"软投影"特性实现连续致密特征、平滑过渡及容错能力,提升BEV感知质量 [18][19] 端到端自动驾驶 定义与分类 - 端到端系统定义为从传感器原始输入到任务变量输出的完全可微过程 [20][22] - 狭义端到端指传感器数据直接输出规划/控制动作或行驶轨迹 [22] - 技术演进分为四个阶段:感知端到端、决策规划模型化、模块化端到端、One Model单一模型端到端 [31] - 模块化端到端(华为、小鹏、理想采用)实现感知与规划模块的梯度协同训练,接口基于特征向量 [31] - One Model端到端(特斯拉采用)采用单一深度学习模型直接映射原始信号至轨迹输出 [31] 优势与挑战 - 端到端本质是实现感知信息的无损传递,通过梯度反传实现全局优化 [22][25] - 传统分阶段架构问题在于各模块独立优化导致的阶段目标不一致、误差累积及计算负担 [27] - 端到端面临可解释性悖论(性能提升但安全性可解释性降低)、数据规模与质量要求高、长尾场景覆盖度不足三大挑战 [27][28] - 决策层技术路线包括模仿学习(快速获得基础能力但泛化性不足)与强化学习(学得鲁棒策略但依赖仿真环境) [29] VLM、VLA与WA技术路径 VLM(视觉语言模型) - VLM让AI负责环境理解与推理,最终决策权交由传统模块以确保过程可控,代表企业为Waymo [1][35] - 技术流程为环境信息输入→VLM→推理链/多任务→非直接控制输出,运行频率低(2-5 Hz) [36] - VLM能够解释复杂交通场景并提升系统可解释性,但存在"行动鸿沟",即语言输出与实际控制脱节 [36] - 输入数据包括视觉输入(多摄像头图像、BEV特征图)、Prompt指令、导航指令及用户指令 [36] VLA(视觉语言动作模型) - VLA试图让AI直接学习所有驾驶技巧,通过海量数据训练实现"端到端"决策,代表企业为特斯拉、吉利、小鹏 [1][39] - 技术流程为环境信息输入→多模态编码器→LLM/VLM→动作解码器→驾驶动作,形成感知推理行动闭环 [40] - 语言输入演进历经直接导航指令、环境查询、任务级指令至对话式推理四个阶段 [42] - 动作解码器可采用自回归令牌器、扩散模型头或分层控制器生成控制信号或轨迹点序列 [42] - 小鹏第二代VLA为商业应用代表,技术发展历经语言模型作为解释器、模块化VLA、统一端到端VLA、推理增强VLA四个阶段 [44][48] WA(世界动作模型)与路线之争 - 华为ADS 4采用WEWA架构(世界引擎+世界动作模型),强调无需语言组件,直接建立时空认知能力 [1][52][55] - WEWA架构核心逻辑为视觉直接映射动作,跳过语言转化环节,关键指标为端到端时延降低50%、重刹率降低30% [56] - VLA架构核心逻辑为视觉-语言-动作三级传导,以语言为中介,优势在于复杂场景决策准确率提升及支持自然语言交互 [56] - 语言模型价值在于跨场景知识迁移能力(如预训练模型规划误差降低27.12%)、多模态信息统一表征及决策可解释性 [57] - 技术路线核心差异在于是否依赖语言抽象,VLA依赖语言模型归类场景,而WEWA主张直接学习时空物理规律 [55][57]