Workflow
端到端自动驾驶
icon
搜索文档
学术和量产的分歧,技术路线的持续较量!从技术掌舵人的角度一览智驾的十年路....
自动驾驶之心· 2025-10-14 23:33
自动驾驶技术十年发展回顾 - 自动驾驶行业自2015年蓬勃发展至今已走过十年历程 [3] - 十年间涌现出视觉Transformer、BEV感知、多传感器融合、端到端自动驾驶、大模型、VLA、世界模型等众多闪耀技术 [3] - 自动驾驶的量产方案在技术发展过程中互相碰撞和融合 [3] 圆桌对话核心议题 - 回顾过去10年自动驾驶技术迭代的几个里程碑事件 [13] - 复盘过去两年自动驾驶领域的发展 [13] - 探讨世界模型和VLA的技术路线之争 [4][13] - 分析端到端是否已成为智驾技术栈的基石 [13] - 探讨学术界和工业界对L3自动驾驶的思考 [4][13] - 分析学界研究方向在收敛而工程端在拼落地的现状 [13] - 为新入行的自动驾驶人提供职业发展建议 [4][13] 主讲嘉宾背景 - 崔轲迪担任百度BV风投副总裁 [5] - 孙昊现任博世中央研究院自动驾驶负责人,研究方向为自动驾驶感知和端到端智能系统,拥有新加坡国立大学博士和麻省理工新加坡研究中心博士后经历 [5] - 许凌云现任长安科技泊车业务负责人,拥有中国科学院博士和卡内基梅隆机器人研究所博士后经历,曾获DARPA SUBT无人车挑战赛2019年世界冠军 [5] - 郑文钊为加州大学伯克利分校人工智能实验室博士后研究员,在TPAMI、CVPR等顶级期刊会议发表论文50余篇,谷歌学术引用2700余次 [6] 活动信息 - 圆桌对话定于10月15日晚举行 [9] - 活动由自动驾驶之心运营负责人Gloria和知乎大V刘斯坦共同主持 [7][8] - 完整版深度内容已独家上线知识星球「自动驾驶之心」,涵盖所有技术细节、QA及未公开内容 [17]
地平线残差端到端是如何实现的?ResAD:残差学习让自动驾驶决策更接近人类逻辑
自动驾驶之心· 2025-10-13 23:33
文章核心观点 - 地平线、华科和武大团队提出的ResAD框架通过归一化残差轨迹建模方法解决了端到端自动驾驶中因果混淆和规划困境两大核心问题 [2][5][49] - ResAD不直接预测整条轨迹而是先提供惯性参考线再让模型学习调整量将学习目标从轨迹预测转变为理解驾驶决策原因 [2][16][18] - 该方法在NAVSIM v1和v2基准测试中实现了最先进性能PDMS达886 EPDMS达855展现出卓越的安全性和规划效率 [36][37][38][39] 技术方法创新 - 轨迹残差建模将真实轨迹与基于恒定速度模型的惯性参考线之间的差值作为学习目标迫使模型关注导致方向调整的因果因素 [16][17][18] - 逐点残差归一化技术通过最小-最大缩放解决远场误差主导优化问题确保模型优先关注近处安全关键的小调整 [3][19][20][21] - 惯性参考扰动机制通过对自车速度添加随机噪声生成多模态轨迹假设摆脱对静态预定义轨迹词库的依赖 [22][23][24][40] 性能表现 - 在NAVSIM v1基准上ResAD的PDMS为886其中无责任碰撞率为980可行驶区域合规性为973自我进度为825 [36][37] - 在更复杂的NAVSIM v2基准上EPDMS提升至855在行驶方向合规性达995交通信号灯合规性达998车道保持能力达970 [38][39] - 消融研究表明轨迹残差建模将DAC指标从943提升至966惯性参考扰动将PDMS从872进一步提升至886 [42] 行业比较优势 - 相较于DiffusionDrive等依赖静态预定义轨迹词库的方法ResAD生成的轨迹与驾驶上下文更一致避免了无效路径规划 [9][40] - 该方法在Transfuser和TransfuserDP两种异构规划模型上均显著提升性能PDMS分别提高14和13验证了其通用有效性 [46][48] - 实车测试显示系统能处理施工路段借道绕行动态障碍物切入等复杂场景并做出拟人化决策如平稳减速和主动超车 [6]
端到端和VLA占据自动驾驶前沿方向的主流了。。。
自动驾驶之心· 2025-10-13 04:00
端到端自动驾驶算法技术趋势 - 端到端自动驾驶已成为量产核心算法 技术栈丰富 主要分为一段式和两段式两大范式 [1] - 一段式代表性算法为UniAD 直接从传感器输入建模自车轨迹输出 二段式基于感知结果进一步输出自车和他车轨迹 [1] - 一段式算法衍生出多个子领域 包括基于感知 扩散模型 世界模型及VLA的端到端算法 其中VLA相关论文呈现爆发式增长 工业界加速量产布局 [1] 自动驾驶技术课程内容架构 - 行业推出《端到端与VLA自动驾驶小班课》和《自动驾驶VLA和大模型实战课程》 由工业界与学术界专家联合授课 聚焦前沿技术方向 [3] - VLA实战课程涵盖三大领域:从VLM作为自动驾驶解释器 到模块化VLA 一体化VLA 以及主流推理增强VLA 配套理论基础与实战大作业 [3] - 端到端课程重点讲解一段式/两段式算法 涵盖BEV感知 大语言模型 扩散模型和强化学习 设置Diffusion Planner和ORION算法两大实战项目 [10] 课程师资与学员要求 - 师资团队包括清华大学硕士生及QS30高校博士 在ICCV/IROS/EMNLP等顶级会议发表多篇论文 具备多模态感知 VLA算法研发及量产交付经验 [7][9][10] - 学员需自备GPU 推荐算力在4090及以上 需具备自动驾驶基础 Transformer大模型 BEV感知等技术概念 以及概率论 线性代数和Python/PyTorch编程能力 [13]
Waymo提出Drive&Gen:用生成视频评估端到端自动驾驶(IROS'25)
自动驾驶之心· 2025-10-12 23:33
文章核心观点 - 自动驾驶领域出现新范式,即端到端驾驶模型与视频生成模型的结合,旨在解决彼此的评估和性能提升难题 [3] - Waymo、谷歌DeepMind与约翰霍普金斯大学联合提出Drive&Gen框架,通过协同评估方法连接驾驶与生成模型,实现双向赋能 [3][6] - 该框架证明高质量合成数据能有效诊断并提升E2E规划器的泛化能力,尤其在分布外场景下性能提升显著 [17][21][23][24] 技术框架与原理 - Drive&Gen框架包含一个可控的视频生成模型和一个E2E驾驶规划器,核心思想是"协同评估" [8] - 视频生成模型基于W A L T视频扩散模型扩展,能通过场景布局和运行条件等丰富控制信号生成高度定制化驾驶视频 [9][11] - 提出全新评估指标"行为置换检验",通过比较规划器在真实与生成视频上的轨迹集合差异来量化生成视频的真实性 [13] - BPT指标比传统FVD和ADE更能捕捉影响驾驶决策的关键差异,例如当移除车辆边界框信息时,BPT和ADE显著恶化而FVD变化不大 [14][16] 实验验证与性能提升 - 在相同条件下,生成视频能让规划器产生与真实视频相似的轨迹预测,BPT失败拒绝率达到69 62%,接近95%的理论上限 [18][19] - 利用合成数据微调E2E规划器后,整体性能提升:在真实验证集上的5秒平均位移误差从0 7548降低至0 7333 [21][22] - 在雨天分布外场景中,性能提升明显,ADE@5s从0 8536降低到0 8382 [23] - 在夜间场景下,ADE@5s从0 7372降低到0 7101 [24] - 定性结果显示,经合成数据微调后模型能做出更果断安全的驾驶决策,如减少绿灯前犹豫停车和绕行迟缓等问题 [25] 行业影响与前景 - 高质量可控合成数据被证明是极具成本效益的方案,能有效弥补真实世界数据不足,帮助拓展自动驾驶运行设计域 [26] - 该研究为生成式AI赋能自动驾驶研发提供了系统性评估和优化方法论,推动在虚拟世界中训练和测试自动驾驶的进程 [26]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-12 23:33
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在一段式和两段式两种主要范式,一段式代表为UniAD,直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2024年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法 [3] 主流企业技术布局 - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力端到端自动驾驶的自研量产 [3] - 端到端与VLA技术栈涉及BEV感知、视觉语言模型、扩散模型、强化学习等核心内容,是学术界和工业界最前沿的技术方向 [5] 端到端技术核心内容 - 二段式端到端领域涌现出经典算法PLUTO、CVPR'25的CarPlanner以及最新工作Plan-R1等优秀成果 [10] - 一段式端到端子领域包括基于感知的UniAD、基于世界模型的Drive-OccWorld与OccLLaMA、基于扩散模型的DiffusionDrive与DiffE2E,以及基于VLA的ORION与OpenDriveVLA [12][14] - 基于VLA的端到端方法被视为目前端到端自动驾驶的皇冠,上限高且业内招聘需求旺盛,是业界预研的新一代量产方案 [14] 关键技术发展动态 - 扩散模型思想自2024年下半年被引入多模轨迹预测,相比单模轨迹能更好适应自动驾驶不确定环境,并可与其他方法结合实现VLA [14] - 世界模型应用广泛,不仅可用于场景生成、端到端,还可用于闭环仿真,是近两年非常热的技术方向 [14] - VLA技术融合了VLM、BEV、扩散模型、强化学习等多种技术,是端到端发展的前沿 [14]
工业界和学术界大佬带队!彻底搞定端到端与VLA
自动驾驶之心· 2025-10-09 23:32
端到端自动驾驶算法趋势 - 端到端算法已成为自动驾驶量产的核心算法,技术栈丰富,业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表,直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步细分为基于感知、扩散模型、世界模型及视觉语言模型(VLA)等多种子领域,尤其基于VLA的算法相关论文正爆发式发表,工业界也在争先量产 [1] 核心技术与课程定位 - 从模块化算法到端到端再到VLA,核心算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等,掌握这些技术可把握学术界和工业界最前沿方向 [3] - 行业推出《端到端与VLA自动驾驶小班课》与《自动驾驶VLA和大模型实战课程》,旨在帮助从业者快速高效入门 [3] - 《自动驾驶VLA与大模型实战课程》由学术界专家带队,聚焦VLA领域,涵盖从VLM作为自动驾驶解释器到模块化VLA、一体化VLA及推理增强VLA的三大领域 [3] - 课程配套理论基础梳理与大作业章节,指导学员从零搭建自己的VLA模型及数据集 [3] - 《端到端与VLA自动驾驶课程》由工业界专家带队,聚焦端到端自动驾驶宏观领域,梳理一段式/两段式重点算法,详解BEV感知、大语言模型、扩散模型和强化学习 [10] - 工业界课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [10] 师资力量与学员要求 - 课程讲师团队包括来自清华大学等顶尖院校的研究人员,在ICCV、IROS、EMNLP等顶级会议发表多篇论文,研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [7][9] - 讲师团队具备丰富的自动驾驶、大模型研发和实战经验,并主持完成多项算法预研、框架工具及产品量产交付 [7][9][10] - 课程面向具备一定自动驾驶领域基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念的学员,要求自备算力在4090及以上的GPU,并具备Python和PyTorch语言基础 [13]
模仿学习无法真正端到端?
自动驾驶之心· 2025-10-08 23:33
模仿学习的核心问题与局限性 - 模仿学习的基本假设是专家数据提供了最优行为真值,但在驾驶这种多模态场景中不存在唯一完美驾驶行为 [2] - 训练数据来源于风格、技术和礼让程度各异的真人驾驶,这些数据缺乏一致性且难以称为最优,导致模型学不到清晰正确的驾驶逻辑 [3] - 纯粹基于模仿学习的模型难以学到具有强逻辑和因果关系的拟人驾驶策略,反而表现出极强的随机性和不确定性 [4] 模仿学习在决策权重上的缺陷 - 模仿学习将人驾数据中每个时刻的真值正确性视为等权重,无法区分关键场景决策与普通场景决策的重要性 [5] - 由于训练阶段没有对不同的场景决策区别对待,模型在关键时刻容易犯下致命错误,导致输出不可完全信赖 [5] - 自动驾驶领域充满关键场景,纯粹模仿学习系统在一般场景可能表现良好,但在关键场景(如旁车紧急切入)则难以输出符合安全要求的轨迹 [7] 模仿学习的累积误差与分布外问题 - 开环模仿学习会因Policy与最优解之间的微小误差累积,导致自车进入训练数据分布之外的驾驶状态 [8] - 当模型进入人驾数据中罕见的驾驶状态时,其行为难以预判,造成性能显著下降 [8][12] - 实车表现上,模型可能因非最优行为导致迟迟不能变道,而很晚变道的现象在人驾数据中少见,最终在关键时刻容易放弃并导致接管 [13] 技术研发的关键方向 - 技术研发的核心在于识别关键路线和瓶颈,而非紧追技术潮流 [14] - 随着端到端技术方案实践经验的增长,行业意识到问题在于寻找模仿学习训练范式之外的新方法来解决其技术瓶颈 [14]
纵向端到端是自动驾驶技术的一道分水岭
自动驾驶之心· 2025-10-04 04:04
行业技术发展现状 - 端到端技术已成为自动驾驶行业普遍宣称但实际实现程度参差不齐的技术方向 [2] - VLA和世界模型成为行业新的热门词汇和竞相追逐的焦点 [2] - 横向端到端(模型驱动的横向规划)已被多家头部智驾团队实现 [3] - 纵向端到端仍是自动驾驶技术的一道分水岭,真正实现的系统极少 [3] 纵向端到端的必要性 - 单纯依赖规则或优化方法难以保证纵向控制的拟人丝滑 [3] - 老司机与新司机的关键区别在于对减速的控制能力 [3] - 防御性驾驶的核心是合理的纵向决策控制加减速 [4] - 真正的防御性减速需要根据必要性在安全和效率间进行权衡取舍 [4] 纵向端到端技术难点 - 纵向控制目标与沿着导航路径高效通行的核心目标存在矛盾 [15] - 人类纵向驾驶数据相比横向数据更为"嘈杂",速度控制存在随机波动 [16] - 模仿学习难以区分有意识的纵向控速和无意义的降速波动 [16] - 横向控制与导航目标正交,而纵向控制与效率目标直接冲突 [15] 技术解决方案方向 - 需要大量数据清洗减少纵向数据噪声对模型训练的影响 [17] - 引入语言因果逻辑推理筛选有逻辑的加减速操作 [17] - 结合强化学习避免模仿学习假设人类数据永远是最优策略的局限 [17] 实际场景表现对比 - 在路口盲区场景中,FSD在自车未探出路口前就将速度降至11km/h,而其他系统在车头明显探出后才减速至12km/h [6][8] - 窄路会车场景中,FSD主动减速靠右让行,通过对向车后立即加速,而其他系统选择继续前行导致双方车辆都降至极低车速 [10][11] - FSD的纵向控制能够实现根据盲区消失及时恢复速度,完全符合人类驾驶预期 [8][14]
有人在自驾里面盲目内卷,而有的人在搭建真正的壁垒...
自动驾驶之心· 2025-09-29 23:33
行业变革与人才流动 - 车企正经历新一轮组织架构调整 9月有48位高管发生变动 [1] - 头部公司积极调整技术团队架构 理想汽车将智驾团队拆分为11个二级部门 [1] - 人才竞争加剧 比亚迪从斑马智行挖来CTO负责智能座舱业务 [1] - 技术高管身兼多职 蔚来汽车任少卿同时负责公司自动驾驶业务并在中科大搭建实验室 [1] 技术演进趋势 - 自动驾驶算法快速迭代 三年前主流是BEV 两年前转向无图方案 一年前兴起端到端 当前聚焦VLA和世界模型 [1] - 前沿研究方向集中在VLA/VLM 端到端自动驾驶 世界模型 闭环仿真3DGS 强化学习等领域 [3] - 算法工程师面临持续学习压力 需要不断更新认知并跳出舒适圈 [1] 行业信息壁垒 - 学术界与工业界存在明显信息差距 在校学生和中小厂算法工程师对业内实际进展了解有限 [3] - 不同公司之间技术交流不畅 形成信息壁垒 [3] 自动驾驶社区生态 - 自动驾驶之心知识星球已运营三年 形成视频+图文+学习路线+问答+求职交流的综合社区 [5] - 社区规模超过4000人 目标两年内达到近万人规模 [5] - 社区汇集学术界和工业界资源 成员来自上海交大 北京大学 CMU 清华大学等知名高校以及蔚小理 地平线 华为等头部企业 [20][21] 技术资源体系 - 社区梳理40+技术方向学习路线 涵盖感知 仿真 规划控制等核心领域 [10][21] - 汇总近40个开源项目 近60个自动驾驶数据集 以及主流仿真平台 [21] - 提供七大福利视频教程 涵盖世界模型 自动驾驶大模型 Transformer等热门话题 [88] - 举办超过100场专业技术直播 邀请行业专家分享最新研究成果 [90] 职业发展支持 - 建立内推机制 与多家自动驾驶公司合作提供岗位内推服务 [13] - 社区内部交流活跃 成员可咨询行业应用 技术路线 求职跳槽等实际问题 [11][24] - 针对不同基础的学习者提供全栈方向课程 包括0基础入门和进阶提升内容 [12][21]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 08:45
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2024年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要范式:一段式(如UniAD)直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2023年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种方法,主流自动驾驶企业和车企均在发力自研量产 [3] 端到端与VLA技术核心 - 端到端与VLA涉及的核心技术栈包括BEV感知、视觉语言模型、扩散模型和强化学习等,代表了学术界和工业界最前沿的技术 [5] - 基于扩散模型输出多模轨迹是当前学术界和工业界追捧的热点,多家公司正在尝试落地 [11] - 视觉大语言模型相关的强化学习技术是重点,包括RLHF和GRPO等 [11] 课程内容与结构 - 课程涵盖二段式端到端与一段式端到端前沿算法的细致讲解,内容均为工业界和学术界的Baseline [5] - 第一章介绍端到端自动驾驶发展历史、概念起源及从模块化到端到端的演变,分析一段式、二段式及VLA范式的优缺点 [9] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,为后续章节奠定基础 [9] - 第三章聚焦二段式端到端,解析经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,并对比其与一段式端到端的优缺点 [10] - 第四章为课程精华,深入讲解基于感知、世界模型、扩散模型及VLA的一段式端到端子领域 [12] - 第五章大作业为RLHF微调实战,涵盖预训练模块和强化学习模块的搭建与实验,该技术可迁移至VLA相关算法 [13] 技术细分领域进展 - 基于世界模型的方法应用广泛,可用于场景生成、端到端及闭环仿真,是近两年热门技术方向 [14] - 基于扩散模型的方法自2023年下半年兴起,通过输出多模轨迹更好地适应自动驾驶不确定环境,代表性工作包括DiffusionDrive、Diffusion Planner和吉大的DiffE2E [14] - 基于VLA的方法是端到端自动驾驶的皇冠,上限高且难度大,业内招聘需求旺盛,代表性工作包括小米的ORION、慕尼黑工大的OpenDriveVLA及最新的ReCogDrive [14] 行业影响与人才需求 - 学习端到端与VLA自动驾驶可掌握最前沿技术栈,第二章内容是未来两年求职面试频率最高的技术关键词 [10] - 完成课程期望能达到1年左右端到端自动驾驶算法工程师水平,掌握技术框架并对BEV感知、多模态大模型等关键技术有更深刻了解 [19] - 课程面向具备自动驾驶基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并有一定数学和编程基础的学员 [18]