端到端自动驾驶 - 财报，业绩电话会，研报，新闻 - Reportify

端到端自动驾驶

搜索文档

会自检的VLA！ReflectDrive：更安全更高效scaling的端到端框架（理想&清华）

自动驾驶之心· 2025-09-27 23:33

文章核心观点 - 提出ReflectDrive新型学习框架，通过离散扩散的反思机制实现安全轨迹生成，解决端到端自动驾驶在安全性和多模态性能方面的核心挑战 [2][3] - 该方法首次将离散扩散应用于端到端自动驾驶轨迹生成，集成反思机制实现无梯度安全引导再生，在NAVSIM基准测试中展现出接近人类水平的安全关键轨迹生成能力 [7][13][35] - 框架核心是将二维驾驶空间离散化构建动作代码本，通过微调预训练扩散语言模型用于规划任务，结合目标条件生成和安全引导再生两阶段优化 [6][14][20] 技术方案创新点 - **离散化表示**：对二维驾驶空间进行离散化处理，将连续路径点映射为离散令牌对，实现鸟瞰图空间中高效搜索可行解 [15] - **反思推理机制**：包含目标条件轨迹生成与安全引导再生两个阶段，通过评分函数引导实现迭代自校正，无需梯度计算 [20][22][25] - **安全锚点搜索**：对于不安全路径点，在曼哈顿邻域内进行局部搜索确定更优令牌对，作为轨迹修复的安全锚点 [26][27] 性能评估结果 - **基准测试表现**：在NAVSIM基准测试中，ReflectDrive的PDMS综合评分达91.1，使用真值智能体信息时提升至94.7，接近人类水平的94.8 [35][38] - **安全指标提升**：与无反思推理版本相比，DAC提升3.9个百分点至99.3，TTC提升1.3个百分点至93.5，NC提升0.8个百分点至97.7 [37] - **进度优化效果**：EP指标提升7.9个百分点至86.9，使用真值智能体时进一步提升至88.9，超过人类水平的87.5 [37][38] 技术优势特点 - **多模态行为建模**：通过目标条件生成捕捉多样驾驶行为，支持在交叉口选择不同转向方向等大规模调整 [23][24] - **实时性能优化**：局部搜索在小型离散邻域进行，大多数安全违规可在1-3次反思迭代内解决，推理开销可控 [31] - **修复能力强化**：利用离散扩散模型的修复能力，以安全锚点为条件对轨迹片段再生，保持全局连贯性 [11][26] 应用前景展望 - **可扩展架构**：离散令牌结构支持并行解码和双向特征融合，实现可扩展训练，为自动驾驶系统提供可靠解决方案 [3][19] - **实际部署潜力**：实验表明通过更准确的检测与预测结果，系统性能可进一步提升，有望全面超越人类驾驶性能 [38][44]

端到端自动驾驶

视觉 - 语言 - 动作（VLA）模型

离散扩散模型

端到端自动驾驶

视觉 - 语言 - 动作（VLA）模型

离散扩散模型

对比之后，VLA的成熟度远高于世界模型...

自动驾驶之心· 2025-09-26 16:03

端到端自动驾驶技术格局 - 当前行业与学术界中90%以上采用分段式端到端方案，纯粹的视觉-语言-动作模型和世界模型非常罕见 [2] - 视觉-语言-动作模型代表包括高德地图模型、地平线SENNA模型和加州大学洛杉矶分校AutoVLA [2] - 世界模型代表包括上海AI实验室GenAD、中科慧拓GenAD、华为与浙江大学Drive-OccWorld以及理想汽车World4Drive [2] 性能测试方法与数据集 - 性能测试主要分为两类：在模拟器中使用合成数据进行闭环测试，以及在真实采集数据上进行开环测试 [4] - 开环测试无法获得预测指令执行后的反馈，常用评估指标为3秒内平均L2距离和3秒内平均碰撞率 [4] - 闭环仿真测试主要基于CARLA、nuPlan和NAVSIM平台，其中NAVSIM数据集来自nuPlan [4] - 常用数据集规模：nuScenes为5.5小时，Waymo为11小时，Argoverse2为4.2小时，nuPlan为120小时，而合成数据规模理论上无限 [3] 主要模型性能对比 - 基于nuScenes数据集的开环测试是当前最常见评估方式 [5] - 视觉-语言-动作模型阵营性能表现优于世界模型阵营，例如地平线SENNA模型在加入自车状态后L2平均距离为0.22米，3秒平均碰撞率为0.08% [5][6] - 世界模型相关论文多集中于2024年初，近期研究更多集中于生成长尾训练视频 [6] - 华为与浙江大学Drive-OccWorld在不同评估协议下表现差异显著，采用TemAvg协议时L2平均距离为0.47米，碰撞率为0.11% [5] 上海AI实验室GenAD模型 - 模型最大特色是训练数据完全来自互联网，绝大部分来自YouTube，无需任何标注 [7] - 公司认为使用标注数据的监督学习难以具备强泛化能力，主张采用海量无标注在线驾驶视频 [8][19] - 模型采用两级训练，基于扩散模型和Transformer，但需添加基于高精度地图和交通规则的任务头，因此不能算纯粹的世界模型 [26] 华为与浙江大学Drive-OccWorld模型 - 模型框架包含历史编码器、具有语义和运动条件归一化的记忆队列、世界解码器三个组件 [32] - 世界模型输出两个任务头：基于动作可控的占据栅格网络生成和基于占据的轨迹预测 [28] - 模型采用混合密度网络结合高斯混合模型，在输出部分引入不确定性，更接近强化学习范式 [30] - 端到端轨迹规划借鉴ST-P3的代价函数聚合图 [36] 理想汽车World4Drive模型 - 框架包含驾驶世界编码模块和规划模块，其中编码模块包括意图编码器和物理潜在编码器 [37] - 意图编码器对轨迹词典中的轨迹按终点进行K-means聚类得到意图点，结合正弦位置编码获得意图查询 [37] - 采用IDEA的Grounded SAM算法获得基于深度的语义分割图，该过程需要大量3D标注数据 [39] - 通过交叉注意力机制引入场景上下文信息，并通过多层感知机输出多模态轨迹 [41] 技术路线对比与部署考量 - 视觉-语言-动作模型技术成熟度远高于世界模型，且架构更加简洁 [43] - 世界模型经过传统融合激光雷达的感知算法增强后性能提升，但丧失了无需标注数据和泛化能力强的优点 [43] - 通常世界模型参数量在10亿以下，部署成本相对较低，但加入扩散模型后运算和存储资源消耗显著增加 [43]

端到端自动驾驶

端到端自动驾驶

AnchDrive：一种新端到端自动驾驶扩散策略（上大&博世）

自动驾驶之心· 2025-09-26 07:50

端到端自动驾驶技术演进 - 端到端自动驾驶算法直接从原始传感器数据学习控制信号，绕过模块化设计复杂性，减少感知误差累积，提升系统一致性与鲁棒性 [4][12] - 早期方法依赖自车查询回归单模态轨迹，在复杂场景中易因行为多模态性导致预测失效 [6][12] - 多模态建模策略通过生成多个轨迹提案提升决策覆盖率，但固定轨迹集离散化限制模型表达灵活性 [6][13] 扩散模型在轨迹规划中的应用 - 扩散模型具备强大生成能力与自适应能力，适合多模态轨迹规划，能从高维联合分布采样并建模连续控制空间 [7][13] - 模型天然支持条件分布建模，可整合轨迹历史、地图语义、自车目标等上下文输入，提升策略一致性与情境相关性 [7][13] - 测试阶段可通过可控采样加入额外约束，无需重新训练模型 [7][13] AnchDrive框架核心创新 - 采用截断扩散策略，从混合轨迹锚点集初始化扩散过程，显著减少去噪步骤，降低计算成本与延迟 [8][15][29] - 动态锚点由多头部解码器实时生成，处理BEV场景表征、目标特征、地图特征和VLM指令四类输入，捕捉局部环境行为多样性 [27][29] - 静态锚点集从大规模人类驾驶数据预采样，提供跨场景行为先验知识，增强模型泛化能力 [8][28][29] 混合感知架构设计 - 密集感知分支构建128×128网格BEV特征图，覆盖64×64米区域，提供场景纹理与空间关系的隐式引导 [22][23] - 稀疏感知分支执行3D目标检测和在线高精地图矢量化，输出带属性边界框及矢量化地图元素，通过MLP编码生成目标与地图嵌入 [23] - 双分支协同融合隐式模式与显式几何约束，为规划提供全面可靠的环境理解基础 [21][23] 性能表现与基准对比 - 在NAVSIM v2基准测试中EPDMS达到85.5分，显著优于主流方法：较VADv2提升8.9分，较Hydra-MDP提升5.7分，较Hydra-MDP++提升4.1分 [9][15][34] - 轨迹锚点数量从VADv2的8192个大幅缩减至20个，减少比例达400倍 [34] - 在所有子分数指标上均优于DiffusionDrive基准方法，EPDMS分数提升1.2分 [34] 消融实验关键发现 - 动态锚点生成器中：BEV特征轨迹头使EPDMS提升0.5分；目标特征轨迹头显著提高无责任碰撞(NC)分数；地图特征轨迹头提升可行驶区域合规性(DAC)和行驶方向合规性(DDC)指标 [36] - 整合VLM指令后EPDMS达到最终85.5分 [36] - 2步去噪步骤在规划性能与计算效率间取得最佳平衡，更多步骤不保证性能提升且增加推理延迟 [36] 技术实现细节 - 实验基于NAVSIM数据集，标注频率2Hz，提供8摄像头360度视野和5传感器融合LiDAR点云数据 [32] - EPDMS评价指标整合乘法惩罚分数（无责任碰撞、可行驶区域合规性、行驶方向合规性、交通信号灯合规性）和加权平均分数（碰撞时间、自车进度、历史舒适性、车道保持、扩展舒适性） [32] - 模型完全端到端学习，未依赖任何手工后处理步骤 [34]

端到端自动驾驶

多模态轨迹规划

端到端自动驾驶

多模态轨迹规划

如何向一段式端到端注入类人思考的能力？港科OmniScene提出了一种新的范式...

自动驾驶之心· 2025-09-25 23:33

文章核心观点 - 提出了一种名为OmniScene的全新类人框架，旨在解决当前自动驾驶系统缺乏真正场景理解能力的问题，通过结合环视感知与时序融合实现全面的4D场景理解 [2] - 该框架通过师生结构的OmniVLM架构与知识蒸馏，将文本表征嵌入3D实例特征以实现语义监督，并采用分层融合策略解决多模态融合中的模态贡献不平衡问题 [2] - 在nuScenes数据集上的评估表明，OmniScene在所有任务中均实现了更优性能，特别是在视觉问答性能上实现了21.40%的显著提升 [3] 技术框架与创新 - 引入OmniScene视觉-语言模型，这是一种结合环视感知与时序融合能力的VLM框架，可实现全面的4D场景理解 [2] - 通过师生结构的OmniVLM架构与知识蒸馏，将文本表征嵌入3D实例特征中以实现语义监督，明确捕捉类人的注意力语义信息 [2] - 提出分层融合策略，以解决多模态融合过程中模态贡献不平衡的问题，该方法能在多个抽象层级上自适应校准几何特征与语义特征的相对重要性 [2] - 框架输入包括环视图像、操作指令与用户提示，通过学生端OmniVLM模块生成文本标注，并与视觉特征、三维实例特征融合形成全面特征表示 [23] 算法核心组件 - 采用基于稀疏查询的范式初始化三维目标实例集，有效降低计算复杂度并使模型聚焦于信息区域 [41][45] - 设计4D时空融合模块，通过解耦交叉注意力显式建模实例在多帧间的时间依赖关系，并通过解耦自注意力挖掘当前帧内实例间的空间关系 [46][52] - 引入视觉可变形聚合模块，以每个实例的几何先验为引导，自适应从环视图像特征中聚合信息线索 [53][59] - 设计文本条件聚合模块，将文本语义信息整合到每个三维实例特征中，实现上下文感知推理 [60][65] - 引入深度优化模块，利用增强实例特征与来自环视图像的辅助深度线索，对每个实例的估计深度进行校正与优化 [66][69] 性能评估结果 - 在nuScenes验证集上的感知任务中，所提模型的nuScenes检测得分达到0.526，平均平移误差最低为0.555米 [96] - 在跟踪任务上，平均多目标跟踪精度为1.235，召回率为0.528，身份切换次数仅为503次，显著优于所有现有基线模型 [98][99] - 在预测任务中，最小平均位移误差和最小最终位移误差分别低至0.61米和0.96米，遗漏率最低为0.128 [100][101] - 在规划任务中，轨迹L2误差平均值最低为0.58米，在所有预测时域下均表现领先 [102] - 在视觉问答任务中，OmniVLM 7B模型的CIDEr得分为87.39，比最佳基线模型高出24.9% [104][106] 行业应用与前景 - 该技术框架展示了在复杂城市驾驶环境中实现全面场景理解与推理的显著优势，为自动驾驶系统的智能决策与安全规划提供了新思路 [107][109] - 实时性能评估表明，OmniVLM 3B模型在A800平台上仅需88毫秒处理300个输入令牌，总处理时间在113毫秒到139毫秒之间，满足实时任务要求 [125][127] - 行业对VLA/VLM大模型算法专家的需求旺盛，相关岗位薪资范围在40-70K之间，反映了该技术方向的市场价值和发展潜力 [9]

端到端自动驾驶

类人注意力

多模态融合

端到端自动驾驶

类人注意力

多模态融合

FlowDrive：一个具备软硬约束的可解释端到端框架（上交&博世）

自动驾驶之心· 2025-09-22 23:34

核心观点 - 提出FlowDrive自动驾驶框架在BEV空间中引入基于能量的流场表示显式编码风险势场与车道吸引力场实现安全可解释的轨迹规划[2][7] - 采用任务解耦设计分离运动意图预测与轨迹生成过程减少梯度冲突与特征干扰[6][9] - 在NAVSIM v2基准测试中EPDMS评分达86.3 超越现有SOTA方法0.3分在安全性与规划质量方面表现最优[3][40] 技术架构创新 - 风险势场通过高斯函数建模障碍物排斥力计算公式为$$U_{risk}(u,v)=\sum_{i}\eta\exp\Biggl{(}-\frac{\left\|(u,v)-(u_{i},v_{i})\right\|^{2}}{2\sigma^{2}}\Biggr{)}$$[20] - 车道吸引力场结合横向距离与纵向弧长计算公式为$$U_{lane}(u,v)=\frac{1}{2}k_{lat}d(u,v)^{2}+k_{lon}(L-s(u,v))$$[20] - 流感知锚定轨迹优化模块通过Transformer动态调整初始轨迹使其与能量极小值区域对齐[7][22] - 运动解耦生成规划器采用条件扩散框架使用两组门控查询分离意图预测与轨迹去噪任务[28] 实验性能表现 - 使用ResNet-34骨干网络时EPDMS达84.9分超越DiffusionDrive的84.2分和DriveSuprim的83.1分[40] - 采用V2-99骨干网络后EPDMS提升至86.3分较最优基准方法提升0.3分[40] - 在DAC（97.4）、DDC（99.6）、TTC（97.9）等安全指标上显著领先[40] - 多模态设置下（图像+激光雷达）性能与TransFuser、DiffusionDrive相当或更优[41] 消融实验验证 - 移除流场学习模块导致EPDMS从86.3降至85.8[43][47] - 禁用自适应锚定优化使EPDMS下降0.4分[43][47] - 取消运动解耦设计导致性能降低0.2分[43][47] - 流场参数最优配置为$$k_{lat}=10.0$$, $$k_{lon}=1.0$$, $$\eta=1.0$$, $$\sigma=10.0$$[43] 行业技术背景 - 端到端自动驾驶成为主流范式基于BEV的方法可分为回归式（如UniAD、VAD）与生成式（如GenAD、DiffusionPlanner）两类[10][11] - 流场表示在机器人领域早有应用但此前未有效整合进端到端自动驾驶框架[12] - 多任务学习采用MoE、MMoE等门控机制但现有方法存在特征纠缠问题[13]

端到端自动驾驶

多任务学习

端到端自动驾驶

多任务学习

苦战七年卷了三代！关于BEV的演进之路：哈工大&清华最新综述

自动驾驶之心· 2025-09-17 23:33

BEV感知技术演进 - BEV感知已成为自动驾驶领域的基础范式，提供统一的空间表征，支持鲁棒的多传感器融合和多智能体协作[2] - 随着自动驾驶车辆从受控环境向现实世界部署过渡，复杂场景（如遮挡、恶劣天气和动态交通）中的安全性和可靠性仍是关键挑战[2] - 本文首次从安全关键视角对BEV感知进行全面综述，系统分析当前主流框架及实现策略，并将其划分为三个渐进阶段：单模态车载感知、多模态车载感知和多智能体协作感知[2] BEV感知的本质（What） - BEV感知是一种高效的空间表征范式，能够将来自多种传感器模态（如相机、激光雷达、毫米波雷达）的异构数据投影到统一的BEV坐标系中[6] - 通过这种投影，系统可构建周围环境的一致性结构化空间语义地图，消除传感器特有的视角差异[6] - 自上而下的视角能够帮助系统准确感知和理解物体间的空间关系，大幅降低多视角与多模态数据融合的复杂度[6] BEV感知的重要性（Why） - 凭借统一且可解释的空间表征，BEV感知成为自动驾驶中多模态融合与多智能体协作感知的理想基础[8] - 统一坐标系不仅简化了车载与路侧传感器的融合过程，还能支持多车辆与基础设施间的高效信息共享，突破单车辆感知的局限性[8] - BEV表征具备结构化、一致性的语义信息，能够为路径规划、车辆控制等下游任务提供支持，成为复杂协作驾驶场景中"感知-决策"环节的关键桥梁[8] BEV感知的实现方式（How） - 安全导向的BEV感知（SafeBEV）演进划分为三个主要阶段：SafeBEV 1.0（单模态车载感知）、SafeBEV 2.0（多模态车载感知）和SafeBEV 3.0（多智能体协作感知）[12] - 各阶段的特征与技术进展在后续章节详细阐述，包括单模态感知的局限性、多模态融合策略以及多智能体协作的优势[12] SafeBEV 1.0：单模态车载感知 - 该阶段采用单一传感器（如相机或LiDAR）实现基于BEV的场景理解，具有系统复杂度低、计算成本低的优势[13][20] - 基于相机的方法依赖单应性变换或数据驱动的BEV建模，分为稀疏范式与密集范式两类[13] - 基于激光雷达的方法通过点云体素化、稀疏卷积或PointNet等技术提取BEV特征，在空间分辨率与计算效率间取得平衡[13] - 但在恶劣条件下鲁棒性有限：相机方法对光照变化、遮挡和深度估计误差敏感，激光雷达方法面临点云稀疏性和天气导致的性能衰减问题[20][41] SafeBEV 2.0：多模态车载感知 - 该阶段通过集成相机、LiDAR、雷达等异构传感器提升BEV感知性能，突破单模态系统的局限性，增强遮挡与恶劣天气下的鲁棒性[14][42] - 融合策略分为五类：相机-雷达融合、相机-LiDAR融合、雷达-LiDAR融合、相机-LiDAR-雷达三模态融合及时间融合[14][42] - 根据融合阶段的不同，每类策略又可进一步分为单阶段融合（SSF）和多阶段融合（MSF）[42] - 这些策略共同增强了现实自动驾驶场景中BEV感知的安全性、适应性与可靠性[14] SafeBEV 3.0：多智能体协作感知 - 随着车联网（V2X）技术的发展，自动驾驶车辆可通过车-车、车-基础设施间的信息交互与联合推理，突破单智能体感知的局限性[15][72] - 通过在统一BEV空间中聚合多源传感器数据，协作感知能够实现全局环境建模，为动态交通中的安全导航提供关键支持[15][72] - V2VNet、DiscoNet、CoBEVT等代表性框架通过特征压缩、带宽高效协议及分布式推理技术，在降低通信成本的同时实现实时、可扩展的协作[15] - 多智能体观测的时空融合技术能够增强全局态势感知，提升对遮挡或远距离目标的感知能力[15] BEV感知数据集 - 高质量数据集是感知算法研发与评估的核心基础，设计完善的数据集对于提升BEV感知的鲁棒性与安全性至关重要[98] - 车载BEV数据集分为单模态与多模态两类，单模态数据集支持专项研究，多模态数据集支持传感器融合策略的研发[99][102] - 多智能体协作感知数据集在传感器多样性、协作能力及复杂交通场景表征方面取得显著进展，为基于BEV的协作感知研究提供了关键基础[104][105] - 路侧感知数据集利用固定路侧单元实现高精度、广范围的环境感知，具有稳定、抗遮挡的视角及广阔的时空覆盖范围[107] 挑战与未来方向 - BEV感知在开放世界场景下面临关键安全挑战，包括开放集识别、大规模未标注数据、传感器性能退化及智能体间通信延迟[2][16] - 未来研究方向包括与端到端自动驾驶系统的融合、具身智能及大型语言模型的应用[2][16] - 多模态融合仍面临标定与同步、环境干扰、实时性约束和视野局限等挑战[66][70] - 多智能体协作感知需解决通信可靠性、时空对齐及系统可扩展性三大关键挑战[97]

多智能体协作

端到端自动驾驶

大型语言模型

多智能体协作

端到端自动驾驶

大型语言模型

论文解读之港科PLUTO：首次超越Rule-Based的规划器！

自动驾驶之心· 2025-09-15 23:33

PLUTO模型技术架构 - 采用典型的两段式网络架构作为端到端自动驾驶的Planner模型 [1] - 不基于BEV特征图进行下游控制任务，而是直接对感知输出的结构化信息（如边界框、车道线等）进行编码 [1] - 将编码后的结构化信息作为序列标记输入到解码器中 [1] - 二段式端到端架构非常适合新人入门练手 [1] PLUTO模型训练机制 - 包含三个主要损失函数，主任务损失由回归损失和分类损失共同组成模仿学习损失 [7] - Agent轨迹预测损失有专门设计 [7] - 添加了多个辅助损失以帮助模型收敛 [9] 端到端自动驾驶技术发展趋势 - 端到端自动驾驶已发展出多个技术方向，需要掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等知识 [13] - 技术发展迅速，去年的技术方案已不适合当前环境 [13] - VLA（视觉语言动作）范式是当前端到端自动驾驶的皇冠，上限高但难度大，行业招聘需求旺盛 [29] - 基于扩散模型输出多模轨迹成为学术界和工业界追捧的热点，多家公司尝试落地 [26] 课程内容体系 - 第一章介绍端到端算法发展历史，涵盖从模块化方法到端到端的演变，分析一段式、二段式和VLA范式的优缺点 [20] - 第二章重点讲解端到端涉及的背景知识，包括大语言模型、扩散模型、强化学习、BEV感知等，这些是未来两年求职面试频率最高的技术关键词 [20][21][27] - 第三章聚焦二段式端到端，分析经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1 [21] - 第四章涵盖一段式端到端与VLA，包括基于感知的方法（UniAD、VAD、PARA-Drive）、基于世界模型的方法（Drive-OccWorld、OccLLaMA）、基于扩散模型的方法（DiffusionDrive、Diffusion Planner、DiffE2E）和基于VLA的方法（ORION、OpenDriveVLA、ReCogDrive） [22][24][26][29] - 第五章设置RLHF微调大作业，提供预训练模块和强化学习模块的搭建实践 [31] 课程特色与目标 - 基于Just-in-Time Learning理念，通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [15] - 帮助学员构建领域框架，梳理端到端自动驾驶研究发展脉络，形成自己的研究体系 [16] - 理论结合实践，配备实战环节完成从理论到实践的完整闭环 [17] - 学完课程能够达到1年左右端到端自动驾驶算法工程师水平，掌握端到端技术框架和关键技术 [36] - 可复现扩散模型、VLA等主流算法框架，将所学应用到实际项目中 [37]

端到端自动驾驶

多模态大模型

端到端自动驾驶

多模态大模型

作为研究，VLA至少提供了一种摆脱无尽corner case的可能性！

自动驾驶之心· 2025-09-15 03:56

VLA技术演进 - VLA成为自动驾驶主流关键词新势力企业下半年集中抢占VLA技术高地[1] - 传统模块化架构存在错误累积效应和信息损失问题依赖人工规则难以应对复杂交通场景[4] - 纯视觉端到端方案存在黑箱问题和因果混淆缺陷泛化能力受限于训练数据覆盖范围[4][5] - VLA范式通过语言中间表征连接感知与行动赋予模型推理解释和交互能力[5] - VLA模型利用LLM预训练的世界知识理解交通场景实现更符合逻辑的决策[5] 学术研究课程 - 课程提供12周在线小组科研加2周论文指导和10周论文维护期[7][14] - 覆盖语言模型解释器模块化VLA模型统一端到端VLA模型推理增强VLA模型四大研究方向[7] - 学员将获得经典论文与前沿论文分析能力掌握创新点baseline和数据集使用方法[12] - 课程提供baseline代码和可用数据集包括nuScenes Waymo Argoverse等自动驾驶数据集[23] - 配备2+1多师制教学团队包括主导师副导师和科研论文班主任[23] 技术资源支持 - 提供基于模仿学习的端到端自动驾驶开源代码库包括VAD和UniAD项目[24] - 提供基于扩散模型的端到端自动驾驶项目DiffusionDrive和OccNet[24] - 开放VLA端到端自动驾驶项目OpenDriveVLA SimLingo和Senna[24] - 课程必读论文包括Senna SimLingo OpenDriveVLA和ORION等最新研究成果[25] - 硬件要求最低配置为4张4090显卡推荐配置为8张4090显卡或更高性能设备[20] 课程体系设计 - 14周课程包含传统端到端自动驾驶介绍 VLA架构详解和模块化模型研究[26][27] - 每周安排1-1.5小时课程包含课题概览选题讨论算法详解和论文写作方法论[26] - 学员需具备深度学习基础熟悉Python和PyTorch 最好掌握Linux开发环境[16][20] - 课程要求每周课前阅读资料并完成作业课后自学时间至少1-2小时[20] - 最终产出包括论文初稿项目结业证书和优秀学员推荐信[23]

VLA自动驾驶

端到端自动驾驶

大语言模型

视觉表征学习

VLA自动驾驶模型

VLA自动驾驶

端到端自动驾驶

大语言模型

视觉表征学习

VLA自动驾驶模型

端到端再进化！用扩散模型和MoE打造会思考的自动驾驶Policy（同济大学）

自动驾驶之心· 2025-09-14 23:33

自动驾驶技术范式演进 - 端到端技术直接映射传感器输入到驾驶操作，跳过人为感知标注和层级信息损失，但现有方法面临多模态分布处理不足、生成平均化动作导致不安全行为的问题[2] - 强化学习方法能在不确定性下优化策略，但对数据需求极高、训练不稳定且难以扩展到高安全性真实道路场景[2] - 大模型如视觉-语言模型和视觉-语言-动作模型在场景理解和泛化能力表现不错，但实际连续控制中受推理速度慢、动作不连贯和安全性保障难度大的限制[2] 扩散模型在自动驾驶中的应用 - 扩散策略将动作生成视为逐步去噪过程，能更好表达多种驾驶选择并保持轨迹时序一致性和训练稳定性[3] - 扩散模型通过直接建模输出动作空间，为生成平滑可靠驾驶轨迹提供更强大灵活的思路，适合解决驾驶决策多样性和长期稳定性问题[3] - 在机器人控制领域，扩散策略已证明比传统模仿学习和强化学习方法更鲁棒稳定，将轨迹生成问题转变为生成式建模问题[12] 专家混合技术集成 - 专家混合技术通过按需激活少量专家，使模型在保持计算效率同时具备更强扩展性和模块化能力[3] - 在自动驾驶中，MoE被尝试用于多任务策略和模块化预测，但多数设计面向具体任务，限制专家复用性和灵活组合能力[3] - 将MoE融入扩散策略可构建抽象驾驶知识模块，实现真正面向端到端自动驾驶的知识驱动策略框架[15] 知识驱动扩散策略框架 - KDP框架结合扩散模型和MoE优点：扩散模型保证生成轨迹多样性和稳定性，MoE将专家组织成结构化知识单元如纵向控制、交互处理和横向规划[4] - 框架注重知识灵活复用和组合而非任务中心设计，实验证明在多样性、稳定性和泛化性上具有优势[4][6] - 采用端到端思路直接将驾驶环境观测生成控制动作，输入包括自车状态、LiDAR点云和高层导航指令，提供完整环境理解[18] 模型架构与性能 - 模型规模研究表明参数量与驾驶性能正相关：Giant模型1.559亿参数推理延迟81.61毫秒，成功率最高但仍满足实时要求[44][46][48] - 在匝道场景成功率100%零碰撞，交叉口场景成功率94%，环岛场景成功率90%，全面优于PPO-Lag、RPID和IBC基线模型[51][57] - 消融实验显示去除MoE路由器导致成功率下降约6%，移除知识正则化使80%计算集中在两个专家，减少扩散步数从100步到20步使成功率下降3%[54][55][56] 专家激活模式分析 - 时间维度激活呈现稀疏阶段性特点，激活峰值与驾驶任务关键阶段吻合：匝道场景中Expert 3负责纵向控制，交叉口场景Expert 1和5负责交互决策[62] - 场景层级专精与复用显示非均匀但非排他分布：Expert 3专精匝道、Expert 5专精交叉口、Expert 6和8专精环岛，Expert 1和4在多场景复用[64] - 稀疏专家路由机制具备较强环境适应性和知识组合能力，在未调优情况下能在多种复杂路况中平稳运行[70] 典型案例表现 - 匝道合流场景在卡车加塞前成功预判并平稳减速保持安全间距，展现稳定纵向控制能力[69] - 无保护左转场景在交叉口平稳减速等待安全间隙后完成左转，轨迹平滑自然[69] - 直行交互场景面对多车高速抢行动态调整策略确保安全通行[69] - 环岛三出口场景精准控制横向位置和角度，在高复杂度环岛中选择正确出口[69]

专家混合（MoE）技术

端到端自动驾驶

端到端自动驾驶策略KDP

专家混合（MoE）技术

端到端自动驾驶

端到端自动驾驶策略KDP

不管VLA还是WM世界模型，都需要世界引擎

自动驾驶之心· 2025-09-13 16:04

端到端自动驾驶定义 - 学习单一模型直接将原始传感器输入映射到驾驶场景并输出控制指令取代传统模块化管道 [3] - 训练流程包括监督学习模仿学习或强化学习通过大量标注数据或奖励设计实现 [3] - 涵盖当前VLA和世界模型等技术方向属于自动驾驶算法最广概念 [6] 技术发展路线 - 从20多年前黑白图像输入起步经历条件模仿学习泛化可解释性网络等阶段 [8] - 当前处于1.5代端到端自动驾驶阶段基于基础模型解决长尾问题 [10] - 分化出两大分支：世界模型分支（扩散管道/视频生成模型）和VLA分支（大型语言模型应用） [11] 世界模型分支技术 - 包含Drive Dreamer Cosmos Predict One和导航世界模型等具体应用 [11] - Gaia 2作为视频生成模型利用多视图图像预测不同类型视频提升驾驶安全性与自动化 [11] - 通过多模态动作预测实现真实感和多样性生成 [11] VLA分支技术 - Java LM采用"草图维基"方式增强驾驶场景理解 [11] - Lingo Tool和Job VRM利用基础模型提升准确性但存在延迟较高问题 [11] - 通过大小模型协同工作预测多数情况优化系统性能 [11] 部署挑战与数据需求 - 需要处理大量生产问题和工程工作进入第二代发展阶段 [14] - 特斯拉FSD追踪器显示MPI指标年度增长数据量增加使模型持续优化 [18] - 剩余20%长尾问题需海量数据危险案例收集成本昂贵且可能危及生命 [18] 世界引擎解决方案 - 通过极端情况生成和安全关键场景构建大幅降低数据收集成本 [21] - 包含数据引擎和算法引擎生成大量训练场景并改进端到端算法 [24] - 通过环境交互与行为建模实现从失败中学习并优化规划器 [21] 技术路径对比 - 世界模型概念覆盖范围更广但实施存在不确定性 [25] - VLA被视为更切合实际的技术路径世界模型为终极目标 [25] - 需警惕概念包装与实际技术内容不符的情况 [25]

端到端自动驾驶

视觉 - 语言 - 动作（VLA）

世界模型（WM）

端到端自动驾驶

视觉 - 语言 - 动作（VLA）

世界模型（WM）