自动驾驶之心
搜索文档
世界模型是一种实现端到端自驾的途径......
自动驾驶之心· 2025-12-18 03:18
文章核心观点 - 世界模型并非端到端自动驾驶本身,而是一种实现端到端自动驾驶的技术途径[2][5] - 端到端自动驾驶定义为没有显式信息处理与决策逻辑,从信息输入直接输出决策结果的模型[3] - 世界模型定义为接受信息输入,内在建立对环境的完整认知,能够重建和预测未来变化的模型[4] - 行业正通过推出专业课程,系统性地传授世界模型在自动驾驶领域的算法、应用与实战经验,以推动技术落地和人才培养[5][15] 课程内容与结构 - 课程共分六章,从概述、基础知识到前沿模型、实战应用及行业经验,系统覆盖世界模型技术栈[10][11][12][13][14] - 第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例、不同技术流派及其在业界解决的问题环节[10] - 第二章讲解世界模型涉及的背景知识,包括场景表征、Transformer、BEV感知等,是求职面试高频技术点[10][11] - 第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、导航世界模型、DriveVLA-W0及特斯拉世界模型模拟器等热门工作[11] - 第四章聚焦视频生成类世界模型,涵盖Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等经典与前沿工作,并以商汤OpenDWM进行实战[12] - 第五章聚焦OCC生成类世界模型,涵盖清华OccWorld、复旦OccLLaMA、华科HERMES、西交II-World等三大论文及一个项目实战,该方法可扩展至自车轨迹规划[13][17] - 第六章分享世界模型在工业界的应用现状、行业痛点、解决目标以及相关岗位的面试准备与公司关注点等实战经验[14] 讲师与课程目标 - 讲师Jason拥有C9本科与QS50博士背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知与端到端算法的量产交付,具备丰富的研发与实战经验[7] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,帮助学员真正理解端到端[15] - 课程期望使学员达到相当于1年左右经验的世界模型自动驾驶算法工程师水平,掌握技术进展并能复现主流算法框架[18] - 学员需自备推荐算力在4090及以上的GPU,并具备自动驾驶基础、Transformer大模型、扩散模型、BEV感知、概率论、线性代数及Python/PyTorch编程基础[18] 课程安排与形式 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[19] - 章节内容按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁[20]
纯图像理解的时代该翻篇了!MMDrive:给自动驾驶装上「多模态大脑」
自动驾驶之心· 2025-12-18 03:18
文章核心观点 - 传统自动驾驶视觉语言模型在复杂真实路况中存在三维感知能力不足、语义融合有限、关键信息提取效率低等瓶颈,需要从“图像理解”向“场景理解”进行范式转换 [2][3] - 研究提出的MMDrive模型通过融合多模态信息、引入文本导向的多模态调制器和跨模态抽象器,构建了更立体、更智能的场景理解能力,在权威基准测试中性能领先,尤其在复杂和低能见度场景中表现出更强的鲁棒性 [5][8][30] - 该技术框架为自动驾驶高阶感知、仿真测试、智能交通及驾驶辅助等应用提供了新的可能性,代表了行业技术发展的一个重要方向 [31] 传统方法的局限性 - 主流自动驾驶视觉语言模型采用“图像+文本”双分支架构,视觉与文本特征仅进行硬拼接,缺乏深度交互,限制了跨模态语义对齐 [3] - 模型基于二维图像,难以表达深度、空间布局等关键三维信息,在遮挡、恶劣天气等复杂动态环境中关键信息提取效率低 [3][5] - 仅依靠前向摄像头图像,在遮挡等情况下无法准确判断场景全貌(如后方车辆状态),揭示了平面视觉感知的固有缺陷 [5] MMDrive的核心技术突破 - **多模态信息融合**:模型引入了三类互补信息源——提供稠密三维空间结构的占据栅格地图、提供精确几何与深度信息的激光雷达点云,以及通过两阶段策略生成的高层语义文本场景描述,共同构建立体场景表征 [12][15] - **文本导向的多模态调制器**:该组件能根据输入文本问题的语义内容,动态调整不同模态信息的融合权重,实现问题感知的自适应特征融合,避免信息稀释 [17][20] - **跨模态抽象器**:该组件通过学习一组“抽象令牌”来提取跨模态的关键信息,形成紧凑的语义摘要,使大语言模型能更高效地聚焦核心内容,实验表明16个抽象令牌是性能最佳配置 [21] 实验结果与性能表现 - **定量结果领先**:在DriveLM基准测试中,MMDrive在BLEU-4、METEOR、ROUGE-L、CIDEr四项指标上分别达到54.56、41.78、75.27和3.63,全面超越对比模型 [22] - **细分任务优势明显**:在NuScenes-QA基准测试中,MMDrive在计数、状态查询、比较类问题上表现突出,其整体准确率达到62.7,显著高于其他对比方法 [24] - **定性结果稳健**:在夜间、雨天等低能见度场景中,模型仍能保持较高的判断准确率,并能识别传统方法易忽略的细节(如与背景颜色相近的标志牌、远处小型物体) [26][30] 应用前景与未来展望 - **自动驾驶系统**:可作为高阶感知模块,用于复杂路口理解、施工区识别和异常事件判断,并为预测与规划模块提供丰富的语义场景表示 [31] - **仿真与测试**:可用于生成高质量场景描述以测试系统语义理解能力,并支持多模态问答用于驾驶员行为分析与系统评估 [31] - **智能交通与车路协同**:通过车路多模态信息融合提升全域交通态势感知,支持自然语言交互的交通指挥与调度系统 [31] - **驾驶教育与辅助**:为驾考模拟与危险场景教学提供可解释的问答支持,增强ADAS系统的交互能力 [31] - **技术演进方向**:未来研究将围绕长时序预测与协同规划、模型轻量化以适应车载部署,以及生成可解释的决策推理链条展开 [31]
端到端VLA的入门进阶和求职,我们配备了完整的学习路线图!
自动驾驶之心· 2025-12-18 00:06
行业人才需求与趋势 - 近期多家行业中游厂商积极寻求端到端自动驾驶和视觉语言动作模型方向的技术人才 计划在明年投入更多资源进行技术落地 [2] - 对于经验丰富的专家级人才 行业提供的薪酬水平普遍在百万年薪起步 显示出市场对高端技术人才的强烈需求和竞争 [2] 行业培训课程概况 - 为应对工业界明确的技术需求 行业推出了多个聚焦于量产落地的实战培训课程 包括《面向量产的端到端实战小班课》、《端到端与VLA自动驾驶小班课》和《自动驾驶VLA和大模型实战课程》旨在打通从入门、进阶到求职的全链条 [4] - 课程由来自顶尖企业和学术机构的专家授课 师资背景强大 均拥有C9及QS排名前列高校的学历 并在国际顶级会议发表多篇论文 且具备将前沿算法成功量产落地的实战经验 [6][9][14][15] 端到端自动驾驶量产课程 - 该课程聚焦于端到端自动驾驶的量产落地 详细讲解导航信息应用、强化学习优化、Diffusion和自回归模型的量产经验以及时空联合规划兜底等核心模块 [4] - 课程设计了七大落地实战项目 目标人群为已经从事端到端自动驾驶相关工作并希望进阶加薪的从业者 [4] 端到端与VLA宏观技术课程 - 该课程从宏观领域梳理端到端自动驾驶 涵盖一段式/两段式方向的重点算法和理论基础 详细讲解BEV感知、大语言模型、扩散模型和强化学习 [7] - 课程包含两大实战项目 分别是基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [7] 自动驾驶VLA与大模型实战课程 - 该课程由学术界专家带队 全面梳理视觉语言动作模型领域 涵盖从视觉语言模型作为解释器到模块化VLA、一体化VLA以及当前主流的推理增强VLA三大方向 [12] - 课程配套详细的理论基础梳理 包括视觉、语言、动作三大模块以及强化学习和扩散模型等 并设有大作业章节指导学员从零搭建自己的视觉语言动作模型及数据集 [12] - 课程对学员有明确的先决条件要求 包括需要自备算力在4090及以上的GPU、具备自动驾驶领域基础、了解Transformer大模型等技术的基本概念、拥有一定的数学和编程基础 [11]
从具身到自驾,VLA和世界模型的融合趋势已经形成......
自动驾驶之心· 2025-12-18 00:06
文章核心观点 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型——正呈现出明显的融合趋势,旨在共同塑造一个“既会思考,又会沟通”的终极驾驶大脑,以解决传统模块化方案和早期端到端模型的局限性 [1][16][47] 技术路线解析:VLA - **定义与目标**:VLA 是“视觉-语言-行动”模型,旨在实现人车交互与可解释的端到端自动驾驶,其核心是将人类语言指令融入系统,让车辆“能听懂、会解释、直接开” [4][11] - **系统架构**:采用输入-中间层-输出的“三明治架构” [5] - **输入端**:融合多摄像头图像生成的BEV/体素表征、激光雷达/毫米波雷达数据以及人类语言指令 [5] - **中间层**:由视觉编码器、基于大语言模型的处理器和动作解码器构成,进行统一推理与决策生成 [5] - **输出端**:直接输出车辆的低层控制指令或未来数秒的行驶轨迹 [6] - **核心优势**:交互自然、可解释性强,并能利用语言常识处理复杂语义场景 [11] - **当前挑战**:面临语言与行动对齐困难、算力需求大等难题 [11] 技术路线解析:World Model - **定义与目标**:世界模型是一种生成式时空神经网络系统,旨在为自动驾驶系统构建一个可预测和仿真的内部世界,使其具备“在脑海中预演未来”的能力,从而支持更安全、前瞻的规划 [8][11] - **系统架构**:同样遵循输入-核心模型-输出的架构 [9] - **输入端**:侧重于时序的多模态传感器数据及自车状态,专注于对物理世界状态的建模 [9] - **核心层**:由编码器、记忆模块和生成式预测模块构成,负责状态编码与未来场景的生成式推演 [10] - **输出端**:生成未来场景的丰富表征,如图像序列、BEV地图或4D占据栅格,为下游规划模块提供前瞻信息,而非直接控制车辆 [10] - **核心优势**:能够预测和仿真未来,方便量化风险,并可通过仿真生成大量极端案例数据 [11] - **当前挑战**:缺乏高级语义理解、实时高保真推演的计算成本高,且本身不直接产出驾驶策略 [11] VLA与世界模型的异同 - **主要区别**:两者在目标、输入输出、核心技术及优势挑战上存在显著差异,具体对比如文章中的表格所示 [11] - **内在联系**:尽管路径不同,但二者存在多方面的共同点 [12][13][14][15] - **技术起源一致**:均源于对传统模块化流水线和早期“黑箱”端到端模型的反思 [12] - **终极目标一致**:都是为了让自动驾驶系统具备类人的认知与决策能力 [13] - **关键挑战一致**:都需要解决剩余20%的极端案例难题 [14] - **技术底层一致**:都重度依赖“预训练+微调”的深度学习范式及Transformer等核心架构 [15] 技术融合趋势与实例 行业研究显示,VLA与世界模型的融合已成为明确趋势,旨在形成“感知-推理-仿真-决策-解释”的增强闭环 [16][21][47]。近期多项研究工作体现了这一融合方向: - **3D-VLA (2024.03)**:提出了一个融合3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标图像、深度图和点云,让模型具备“想象未来”的能力。在一个包含约200万个样本的3D具身指令数据集上训练,在3D推理定位等多任务上表现超越2D模型 [20][22] - **WorldVLA (2025.06)**:将VLA模型与世界模型统一于单一框架,实现动作与图像的联合理解与生成。在LIBERO基准测试中,其动作生成成功率超过同类离散动作模型约4%,视频生成质量优于单纯世界模型约10% [25][26][27] - **IRL-VLA (2025.08)**:提出基于逆强化学习奖励世界模型的闭环强化学习框架来训练VLA策略。在NAVSIM v2闭环驾驶基准上取得领先性能,并在CVPR 2025自动驾驶大挑战中获得亚军 [30][31] - **DriveVLA-W0 (2025.10)**:通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的根本瓶颈。在NAVSIM基准测试中,仅用单目前置摄像头即超越多传感器基线模型。在大规模内部数据集上的实验表明,该方法能放大数据扩展定律 [34][35][36] - **WM-MoE (2025.10)**:提出首个基于世界模型,并融合专家混合网络与大型语言模型的运动预测框架,专门针对极端案例。在多个公开数据集上的实验表明,其在整体精度和极端案例处理上均超越现有先进方法 [39][40][41] - **FutureSightDrive (2025.11)**:引入视觉时空链式思考作为中间推理步骤,让VLA模型进行“视觉思考”。该框架首先生成包含物理合理先验信息的统一未来帧,再基于此进行轨迹规划,有效弥合感知与规划间的模态鸿沟 [44][45][46] 行业动态与展望 - 工业界已开始布局相关技术,例如华为强调其世界模型能力,小鹏汽车正在研发VLA 2.0,而理想汽车也在发布会上展示了相关理解,预示着将有更多厂商进入该领域 [47] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路演进,构建具备闭环智能的驾驶系统 [47]
许华哲,抓紧时间慢慢等具身的未来......
自动驾驶之心· 2025-12-18 00:06
作者丨 许华哲 编辑丨具身智能之心 本文已经得到许华哲博士的授权,未经允许,不得二次转载。 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 昨天看到了许华哲老师在社交媒体上的分享,关于数据、量产、本体和场景。类似的观点,今年IROS圆桌期间,许博也站在智能第一性原理上,将具身的未来发展 方向划分为欲望、先验和经验三个模块。 但这极快的变化速率又显得格外不协调,因为我没在任何地方看到人形机器人真正服务人类。快递分拣平均速率是1800件每小时,汽车工厂要万分之一甚至十万分 之一的失误率。达成的那一天似乎一直在一个不远不近的地方招手:隔三差五有人宣称任务已经解决,但和跳舞的同行不同,我们只能在视频里见到它。 达到实时性、准确性、5w公里接管,自驾用了10几年,而具身还需要继续努力。 就像前面说的速率上的不协调,回望2025的具身智能,我发现了好几个这样不协调的相互映照的"对子"。当然也有个人的主观臆断,所以也请担待冒失的地方。 一、两个世界的机器梦 欲望。 在做智能体的时候,无论是物理的还是虚拟的,总觉得现在机器学习没有自己的学习欲望。我们可以设想一下,能不能给机器人 ...
清华&小米DGGT:0.4秒完成4D高斯重建,性能提升50%!
自动驾驶之心· 2025-12-18 00:06
核心观点 - 清华大学与小米汽车联合推出DGGT框架,这是一个无需相机位姿标定、单次前向即可完成4D动态驾驶场景重建的模型,在速度、精度和跨数据集泛化能力上表现卓越,并具备强大的场景编辑功能,有望成为自动驾驶仿真与数据合成的核心工具 [1][6][21] 技术原理与架构 - DGGT采用Pose-Free设计,将相机位姿从输入转为模型输出,端到端预测内外参,从而打破跨数据集部署的校准壁垒 [6][8] - 模型采用ViT编码器融合DINO先验,通过多头联合预测结构,一次前向即可输出相机位姿、4D Gaussian、寿命、动态/运动、天空等完整的4D场景状态 [10][12] - 系统通过Lifespan Head建模场景随时间的外观演变,并通过单步扩散精修抑制运动插值伪影,提升时空一致性与渲染自然度 [3][12] 性能表现 - **重建速度与质量**:在Waymo数据集上,单场景推理时间约0.39秒,同时获得PSNR 27.41、SSIM 0.846的高保真重建质量,在速度与精度上优于前向与优化方法 [8][11] - **关键指标领先**:在Waymo数据集上,其深度误差(D-RMSE)为3.47,场景流估计误差(EPE3D)为0.183米,均优于对比方法 [11] - **零样本泛化能力强劲**:仅在Waymo上训练,无需微调即在nuScenes和Argoverse2数据集上实现超越SOTA的泛化性能,例如在nuScenes上LPIPS从0.394降至0.152(下降61.4%)[13][15] 核心优势与特点 - **强大的跨数据集泛化**:Pose-Free设计减少了对固定拍摄轨迹与相机配置的依赖,使模型在不同传感器布置下仍能维持良好性能,实现了跨域鲁棒性 [15] - **卓越的可扩展性**:支持任意数量的输入视角与长序列,当输入视角从4增至16时,其重建与新视角插值指标保持稳定,而对比方法性能明显下滑,更适合大规模工程化处理 [16] - **高度可编辑的4D场景生成**:模型输出包含相机姿态、深度、动态分割、3D Gaussian追踪等可编辑资产,支持在Gaussian层面直接对车辆、行人等实例进行添加、删除、移动等操作,扩散精修模块可自动补洞与平滑边界 [6][20][21] 组件功能与消融验证 - **Lifespan Head价值**:该组件负责刻画静态区域在不同时间的外观变化,消融实验显示,去除后PSNR从27.41大幅下降至24.21,证明其对维持时空一致性与真实感至关重要 [11][17] - **Motion Head作用**:负责预测像素级3D位移,将同一物体在相邻帧中对齐并插值,确保了运动物体在时间上的连续性与视觉自然度 [19] - **扩散精修效果**:虽然在定量指标上提升较小,但能有效抑制遮挡/插值产生的伪影与细节缺失,显著改善视觉效果,更适配下游任务 [11]
AI Day直播 | 自动驾驶空间检索新范式SpatialRetrievalAD
自动驾驶之心· 2025-12-17 03:18
文章核心观点 - 现有自动驾驶系统依赖实时车载传感器,在视野受限、遮挡或极端天气条件下性能受限,而人类驾驶员具备利用道路记忆的能力 [2] - 复旦大学等机构提出一种新范式,通过引入离线检索的地理图像(如谷歌地图)作为额外输入,赋予自动驾驶模型“回忆”能力,这是一种低成本、高鲁棒且即插即用的感知增强方案 [2] - 该方法在多个核心自动驾驶任务上建立了基准测试,实验表明能有效提升部分任务的性能,并将开源相关代码、数据和基准以支持后续研究 [3] 技术方案与数据构建 - 技术核心是将离线检索的地理图像作为额外输入引入自动驾驶系统,图像可从谷歌地图API或已存储的自动驾驶数据集中轻松获取,无需额外传感器 [2] - 在实验中,通过谷歌地图API检索地理图像,扩展了nuScenes数据集,并将新数据与自车轨迹进行对齐 [3] - 构建了名为“nuScenes-Geography”的离线记忆库,数据来源包括街景、卫星图和历史数据 [10] 性能提升与实验结果 - 该方法在五个核心自动驾驶任务上建立了基准:目标检测、在线建图、占用预测、端到端规划和生成式世界模型 [3] - 在线建图任务的mAP提升了13.4% [3] - 占用预测任务中,静态类的mIoU提升了2.57% [3] - 夜间端到端规划任务的碰撞率从0.55%降至0.48% [3] - 大量实验表明,该扩展模态能够提升部分任务的性能 [3] 研究影响与后续计划 - 该工作通过空间召回(Spatial Retrieval)的方式,大幅提高了感知、决策和生成式仿真性能 [10] - 研究团队将开源数据集构建代码、数据及基准测试,旨在为这一新自动驾驶范式的后续研究提供支持 [3] - 该研究被总结为“长时记忆世界模型,赋予决策系统‘回忆’能力” [7]
没有好的科研能力,别想着去业界搞自驾了......
自动驾驶之心· 2025-12-17 03:18
自动驾驶高端人才市场现状 - 市场上高端自动驾驶人才仍然非常抢手,多家新势力及头部Tier 1公司为硕士毕业生提供的年薪包已达到70万元,以争夺人才(非顶级特殊计划岗位)[2] - 许多参与过工业界预研岗位的学生在毕业前已被公司内定,反映出市场对具备实战经验人才的强烈需求[2] 企业对人才的核心能力要求 - 企业对人才的核心要求是“具备完整的科研能力”,而不仅仅是阅读论文[2] - 完整的科研能力具体指:能发现问题、定义问题、提出解决方案,并能形成方法论输出观点[2] 自动驾驶领域科研人员面临的普遍难题 - 导师不熟悉自动驾驶方向,学生需自行调研领域[7] - 不清楚领域的痛点与难点所在[7] - 缺乏真实数据、算力资源以及明确的改进方向,导致研究停滞不前[7] - 实验设计能力不足,无法取得有效结果,缺乏解决问题的能力[7] - 在论文写作方面存在困难[7] 自动驾驶之心提供的科研辅导服务概览 - 提供1对1科研辅导业务,旨在帮助学生快速提升科研能力[3] - 辅导覆盖自动驾驶多个前沿技术方向,包括端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、BEV感知、Occupancy Network、轨迹预测、运动规划、扩散模型等[4] - 提供的服务内容包括论文选题、论文全流程指导、实验指导以及申博指导[12] - 支持不同级别的论文发表需求,涵盖自动驾驶顶会/顶刊(如CVPR、AAAI)、SCI各分区、中科院分区期刊、EI/中文核心以及毕设、比赛等[13] - 宣称其中稿率很高,已有辅导成果被CVPR、AAAI、ECCV、CoRL、ICLR等多个顶级会议或期刊收录[9] - 辅导价格根据目标论文级别不同而有所差异[10]
北交&地平线提出DIVER:扩散+强化的多模态规划新框架
自动驾驶之心· 2025-12-17 03:18
文章核心观点 - 当前主流端到端自动驾驶系统存在模仿学习范式导致的“模式坍塌”问题,即模型倾向于生成高度聚集在单一专家轨迹附近的行为,缺乏真正有意义的行为多样性,限制了在复杂场景下的决策能力 [2][7] - 研究团队提出了一种名为DIVER的新型多模态规划框架,该框架将扩散模型的多模态生成能力与强化学习的目标约束机制相结合,将轨迹生成从“单一模仿回归问题”转化为“在安全与多样性约束下的策略生成问题” [3][9] - DIVER框架在多个公开基准测试中表现优异,在显著提升轨迹多样性的同时保持了低碰撞率,展现出更强的复杂场景适应能力,为构建更灵活、更接近人类决策的自动驾驶系统提供了新的技术路径 [3][33][34] 研究背景与问题 - 端到端自动驾驶系统在真实测试中表现出行为过于保守和模式单一的问题,难以应对复杂交通场景 [5] - 问题的根源在于主流方法依赖单一专家示范的模仿学习范式,模型被迫去拟合一条“唯一正确”的专家轨迹,即使引入多模态规划,生成的候选轨迹也高度聚集在真实轨迹附近,缺乏真正的行为多样性 [2][6][7] - 人类驾驶在相同场景下会展现出减速、并线、绕行或等待等多种行为,当前模型缺乏这种在行为多样性与安全约束之间取得平衡的能力 [8] DIVER框架核心技术 - 核心思想是不再把轨迹生成当作拟合真实轨迹的回归问题,而是当作在安全与多样性约束下的策略生成问题 [11][12] - 框架构建了“扩散生成 + 强化学习优化”的完整流程,主要包括:策略感知扩散生成器、参考真实轨迹引导的多模态扩散、以及基于GRPO的强化学习优化 [11][12] - 策略感知扩散生成器是核心模块,它在扩散去噪过程中引入地图、动态物体、参考轨迹等条件信息,使生成的每条轨迹都具备清晰语义与可行性 [16][18] - 采用多参考真实轨迹引导机制,从专家轨迹中构建多个参考真实轨迹,并使用匈牙利匹配进行一对一监督,为每个预测模式明确赋予一种驾驶意图,从源头上避免模式坍塌 [20][21] - 采用分组相对策略优化强化学习方法,为生成的轨迹引入多样性、安全、轨迹一致性与车道保持等多种轨迹级奖励,确保在探索多样性的同时保持驾驶质量 [22] 性能评估与结果 - 在Bench2Drive闭环评测中,DIVER在多项关键指标上显著优于UniAD、VAD、SparseDrive、DiffusionDrive等方法 [28] - 在Turning-nuScenes数据集的评测中,DIVER的轨迹多样性显著更高,同时碰撞率最低。例如,在平均多样性指标上达到0.31,优于对比方法的0.21、0.23和0.20;平均碰撞率为0.27%,低于对比方法的0.40%、0.34%和0.32% [29][30][31] - 在nuScenes验证集的6秒长时预测任务中,DIVER在多样性上大幅领先,同时保持最低碰撞率。例如,在3秒时多样性为0.75,碰撞率为1.91%,均优于对比方法 [32] - 文章总结DIVER展示了显著更高的轨迹多样性、更低的碰撞率、更稳定的长时规划能力以及更强的复杂场景泛化能力 [33][36]
华科&小米联合提出MindDrive:首个证实在线强化学习有效性的VLA框架......
自动驾驶之心· 2025-12-17 00:03
文章核心观点 - 华科与小米团队提出了一种名为MindDrive的新型自动驾驶视觉-语言-动作框架,该框架创新性地采用在线强化学习进行训练,有效解决了传统模仿学习方法面临的分布偏移和因果混淆等挑战,并在Bench2Drive基准测试中取得了优异的性能,驾驶得分达78.04分,成功率达55.09% [2][4][8][17][34] 背景与挑战 - 当前自动驾驶视觉-语言-动作模型主要依赖模仿学习,这会导致因果混淆和分布偏移,进而在闭环驾驶中产生不可逆的误差累积 [4] - 将在线强化学习应用于自动驾驶VLA模型面临连续动作空间中探索效率低下的难题 [2] - 现有强化学习应用分为两类:在动作空间使用离线强化学习,限制了模型与环境交互探索的能力;在语言空间使用在线强化学习,但难以将驾驶决策有效映射为类人的具体驾驶轨迹 [5] MindDrive框架设计 - MindDrive的核心架构包含两个共享视觉编码器和文本分词器、但配备不同LoRA参数的大语言模型:一个作为决策专家负责场景推理和驾驶决策,另一个作为动作专家负责将语言决策动态映射为可行驶轨迹 [2][8][11] - 该框架通过将轨迹级奖励反馈至推理空间,使模型能在有限的离散语言驾驶决策集合上进行试错学习,而非直接在连续动作空间中操作,从而平衡了最优决策、类人驾驶行为与探索效率 [2][8] - 训练过程分为两个阶段:首先通过模仿学习在决策专家推断的元动作与动作专家输出的轨迹之间建立一一对应关系,为在线强化学习提供高质量候选轨迹;随后利用在线强化学习对决策专家进行优化 [8][11][18] 在线强化学习实施方案 - 基于CARLA仿真器构建了面向VLA模型的在线闭环强化学习框架,定义了明确的任务成败信号,并将过程划分为数据收集和训练两个阶段 [8] - 采用稀疏奖励函数:成功到达目的地奖励+1,触发碰撞、闯红灯等预定义惩罚事件奖励-1,其他情况奖励为0 [25][26] - 采用近端策略优化算法优化策略,并引入KL散度损失作为正则化项以缓解强化学习微调阶段的灾难性遗忘问题 [28][30][32] - 通过视觉编码器预计算场景令牌作为紧凑状态表示,降低了内存开销,支持大批量训练,并将过程表述为标准马尔可夫决策过程 [8][15] 实验结果与性能 - 在Bench2Drive基准测试中,MindDrive取得了78.04的驾驶得分和55.09%的成功率 [2][17][34] - 即使采用轻量级的Qwen2-0.5B参数模型,其驾驶得分比相同参数规模的强基线模型高出5.15分,成功率高出9.26个百分点 [2][34] - 相较于仅使用模仿学习的版本,在线强化学习使驾驶得分提升2.19分,成功率提升5.79个百分点 [34][38] - 在视觉-语言-动作范式中,MindDrive性能与使用更大规模模型的最先进模仿学习方法相当,并超越了其他离线强化学习方法 [34][38] 消融实验发现 - 逐步引入碰撞、交通灯、路线偏离、停车等惩罚事件能持续提升模型性能,最终版本相比模仿学习基准成功率提升5.79个百分点 [36] - 在线强化学习过程中,将滚动次数设为2次能取得最佳性能,过多滚动会导致灾难性遗忘和性能下降 [37] - 采用KL散度正则化的PPO算法相比基础PPO和熵正则化PPO,能更有效地稳定训练,驾驶得分分别提升3.31分和2.33分 [40] - 使用大语言模型生成的元动作作为高层指令,相比使用导航指令,驾驶得分提升7.74分;在此基础上引入在线强化学习可进一步优化元动作选择 [41] 意义与贡献 - 据研究团队所知,这是首个证实在线强化学习对自动驾驶视觉-语言-动作模型有效性的研究,也是首个在仿真器中通过在线强化学习训练的基于VLA的自动驾驶模型 [2][8][44] - 该工作为自动驾驶领域带来了新的启发,展示了通过语言接口和在线试错来提升模型因果推理与决策鲁棒性的潜力 [8][44]