端到端自动驾驶
搜索文档
正式结课!工业界大佬带队三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-27 00:03
端到端自动驾驶技术发展现状 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂端到端技术均已实现量产[1] - 工业界存在一段式和两段式两种主要技术范式,一段式代表UniAD直接从传感器输入建模自车轨迹输出,二段式基于感知结果进一步输出自车和他车轨迹[1] - 2024年以来一段式端到端快速发展,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法[3] 端到端自动驾驶技术体系 - 端到端与VLA技术涉及BEV感知、视觉语言模型VLM、扩散模型、强化学习等核心内容[5] - 主流自动驾驶企业包括智驾方案供应商和车企都在发力端到端自动驾驶的自研量产[3] - 技术栈涵盖学术界和工业界最前沿的方法,二段式端到端与一段式端到端前沿算法都是工业界和学术界的Baseline[5] 端到端自动驾驶课程内容 - 课程第一章介绍端到端发展历史、技术范式演变及优缺点,分析学术界和工业界研究方向[9] - 第二章重点讲解端到端背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习,以及一段式端到端涉及的BEV感知[9] - 第三章聚焦二段式端到端,讲解经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1[10] - 第四章涵盖一段式端到端子领域:基于感知的UniAD、基于世界模型、基于扩散模型和基于VLA的方法[12] - 课程大作业选择RLHF微调实战,涵盖预训练模块搭建、强化学习模块搭建和实验实施[13] 端到端自动驾驶技术细节 - 基于感知的方法讲解UniAD和地平线VAD,以及CVPR'24的PARA-Drive[14] - 基于世界模型的方法介绍AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,探讨世界模型在场景生成、端到端和闭环仿真中的应用[14] - 基于扩散模型的方法讲解DiffusionDrive、Diffusion Planner和吉大DiffE2E,配套Diffusion Planner实战[14] - 基于VLA的方法选取小米ORION、慕尼黑工大OpenDriveVLA和最新ReCogDrive,以ORION作为实战案例[14] 端到端自动驾驶学习目标 - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地[15] - 学员学完后能达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术[19] - 学习成果包括可复现扩散模型、VLA等主流算法框架,并能将所学应用到实际项目中[19]
Tesla终于分享点东西了,世界模型和闭环评测都强的可怕......
自动驾驶之心· 2025-10-25 16:03
特斯拉FSD技术架构 - 采用单一大型模型处理自动驾驶任务,利用海量数据和长上下文输入[5] - 神经网络计算时间为固定值,不受环境影响,系统运行频率高达36Hz,直接输出控制动作[5] - 工程能力强大,实现了从感知到动作的端到端输出[5] 端到端自动驾驶的驱动因素 - 人类驾驶行为难以用单一评价函数精确描述,规则优化方法存在局限性[8] - 传统模块化架构中感知、预测与规划间的接口定义存在信息损失问题[8] - 端到端架构具备更好的可扩展性,更有利于解决长尾场景问题[8] - 神经网络固定计算时间相比传统规划控制求解器能有效降低系统延迟[8] - 遵循Sutton的"苦涩教训"哲学,强调依赖算力与数据而非过多人工预设[8] 端到端技术面临的核心挑战 - 存在维度灾难问题,即高维输入到低维监督信号导致学习信号不充分[20][21] - 模型可解释性与安全保障是重大挑战,需确保网络真正理解驾驶而非仅拟合捷径[21][23] - 系统评估是三大挑战中最困难的部分,无法直接用损失函数衡量实际表现[36][39] 特斯拉的解决方案与技术亮点 - 通过丰富数据产生有效梯度破解维度灾难,利用各种触发机制和小型神经网络挖掘数据[23][25] - 采用思维链推理过程,融合3D高斯重建、语言理解等多模态信息进行决策[27][33] - 3D高斯重建技术具有速度快、支持动态物体、无需点云初始化、新视角合成效果好等优势[30][31] - 构建基于世界模型的模拟器,通过动作生成后续视频,支持大规模强化学习训练[41][44] - 评估体系强调闭环测试的重要性,需覆盖驾驶行为的多模态性,并平衡评估数据集[39] 技术通用性与应用拓展 - 整套FSD技术架构完全适用于人形机器人领域[46] - 可通过视频数据训练世界模型,并利用仿真环境进行强化学习训练,实现技术闭环[46]
FSD v14很有可能是VLA!ICCV'25 Ashok技术分享解析......
自动驾驶之心· 2025-10-24 00:04
FSD V14技术进展 - Tesla FSD V14系列在两周内连续迭代4个小版本,从14.1到14.1.3,展现了快速进化节奏[4] - 初始版本14.1在驾驶AI能力上实现显著突破,后续版本分别优化刹车顿挫问题、引入Mad Max模式、扩大对Model S/X车型支持[4] - 这种高速版本迭代表明自动驾驶技术在融入其他AI领域进展后,正进入加速演化新阶段[4] 端到端架构优势 - 从V12版本开始,Tesla FSD转向全面端到端架构,实现从传感器像素输入到车辆控制信号输出的单一神经网络模型完成[7] - 端到端架构减少中间规则处理环节,使模型训练梯度能够从输出端无缝反向传播至感知端,实现模型各部分整体协同优化[7] - 该架构能更好地编码人类价值判断复杂性,通过大量学习人类驾驶数据掌握细微价值权衡[9] - 解决感知与决策规划间接口定义难题,神经网络间直接信息传递能最大程度减少信息损失[11] - 具备同构计算带来的确定性延迟优势,神经网络固定结构和参数量保证单帧计算延迟确定性[11] 端到端系统技术挑战 - 端到端模型面临维度诅咒挑战,输入信息维度相当于20亿token,而输出仅为2个token,需要解决从极高维度到极低维度映射问题[16] - Tesla通过强大数据引擎应对挑战,车队每日产生相当于500年驾驶时长数据,采用复杂触发机制回传长尾场景数据[18] - 公司采用VLA架构保障可解释性和安全性,系统输出驾驶控制指令同时输出多种中间结果,包括3D占据网格、动态障碍物、静态物体等[20] 技术创新与应用 - Tesla FSD V14很可能采用基于VLA的端到端技术方案,与国内头部自动驾驶团队技术路线不谋而合[22] - 自然语言决策实现慢系统思考,在复杂场景中展现逻辑推理能力,例如识别道路封路标志并通过推理做出左转决策[24][26] - Feedforward 3D Gaussian提供丰富监督信号和空间理解能力,相比点云或多边形表达更高效可微,相比NeRF等隐式表达几何信息更明确[28] - 3D高斯表征利用神经网络模型泛化能力,通过重建模型前向推理推导场景几何信息和颜色属性,不需要点云初始化[29] 评测体系与仿真系统 - 完善评测体系是端到端系统核心壁垒,训练Loss不能代表模型性能,开环指标不能保证闭环性能[32][34] - Tesla评测体系核心是基于神经网络闭环仿真系统,可利用大量廉价离线状态-动作数据对进行训练[36] - 闭环仿真系统具有三大作用:验证端到端Policy正确性、利用场景编辑生成能力生成对抗样本检验模型能力、在闭环仿真系统中获取人驾真值[36][38][42] - 丰富多样真实数据是自动驾驶核心资源,训练数据多样性和质量决定世界模型性能[40]
做了几期线上交流,我发现大家还是太迷茫
自动驾驶之心· 2025-10-24 00:04
社区概况与规模 - 社区名称为“自动驾驶之心知识星球”,是一个专注于自动驾驶领域的综合类技术社区 [1][3] - 社区集视频、图文、学习路线、问答、求职交流为一体,已运营三年之久 [1][3] - 目前社区成员数量已超过4000人,公司目标是在未来2年内将规模扩张至近万人 [1][3] 社区服务与资源 - 社区联合了众多学术界和工业界专家,为成员提供技术分享和交流渠道 [1][3] - 内部梳理了超过40种自动驾驶技术路线,帮助成员缩短信息检索时间 [5][6] - 提供近40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台的汇总资料 [14] - 建立了与多家自动驾驶公司的岗位内推机制,可帮助成员简历直达心仪公司 [10] 技术内容覆盖范围 - 社区内容全面覆盖自动驾驶感知、规划控制、仿真、端到端学习等核心领域 [14][15] - 具体技术方向包括BEV感知、多传感器融合、3D目标检测、VLA、世界模型、扩散模型等近40个细分领域 [8][14][15][20] - 提供“自动驾驶100问”系列实战内容,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等工程化主题 [8] 学习与交流活动 - 定期举办线上交流活动,单场活动参与人数超过100人 [1] - 社区内部经常解答各类实用技术问题,例如端到端入门、VLA学习路线等 [5][18] - 不定期邀请一线学术界和工业界大佬进行直播分享,目前直播场次已超过一百场 [84] - 成员可在社区内自由提问,获得关于工作选择、研究方向等问题的解答 [87]
端到端和VLA,正在吸引更多智驾公司的关注......
自动驾驶之心· 2025-10-23 00:04
端到端与VLA自动驾驶行业需求 - 主机厂和供应商对端到端及VLA技术人才的需求旺盛,反映出行业技术迭代加速 [1] - 端到端自动驾驶算法主要分为一段式和两段式两大技术范式,其中UniAD是一段式的代表性工作 [1] - 基于VLA的端到端算法是当前学术和工业界的热点,相关论文呈爆发式增长并正推动量产落地 [1] 端到端与VLA技术栈 - 核心技术涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等多个前沿领域 [3] - 一段式端到端算法可进一步细分为基于感知、扩散模型、世界模型及VLA等多种实现路径 [1] - 从模块化算法演进至端到端,再发展到VLA,代表了自动驾驶技术发展的主要方向 [3] 自动驾驶VLA与大模型实战课程 - 课程由学术界专家主导,系统梳理从VLM作为解释器到模块化VLA、一体化VLA及推理增强VLA的技术体系 [3] - 课程内容涵盖Vision/Language/Action三大模块,并设有大作业指导学员从零搭建VLA模型及数据集 [3] - 授课教师来自清华大学及QS30高校,在ICCV/IROS/EMNLP等顶级会议发表多篇论文,GitHub项目总Star数超过2k [8][11] 端到端与VLA自动驾驶课程 - 课程由工业界专家主导,重点讲解一段式/两段式端到端算法的核心理论与模型 [12] - 课程设计包括基于扩散模型的Diffusion Planner和基于VLA的ORION算法两大实战项目 [12] - 授课教师为国内顶级主机厂算法专家,拥有端到端及大模型算法的预研和量产交付经验 [14] 课程目标人群要求 - 学员需自备GPU,推荐算力为4090及以上 [15] - 要求学员具备一定的自动驾驶领域基础,并熟悉Transformer、强化学习、BEV感知等基本概念 [16] - 学员需拥有概率论、线性代数基础,并掌握Python和PyTorch编程能力 [16]
从地平线自动驾驶2025年的工作,我们看到了HSD的野心......
自动驾驶之心· 2025-10-22 00:03
公司战略与整体进展 - 公司在2025年经历组织调整和资源整合后,在自动驾驶领域双线并进,一方面推动新一代辅助驾驶系统HSD的大规模量产落地,另一方面通过前沿论文重塑自动驾驶的底层逻辑 [2] - 公司正从技术供应商向行业标准定义者跃迁,其全新的HSD系统采用创新的"一段式端到端+强化学习"架构,突破传统感知-决策-控制模块的延迟瓶颈 [2] - 公司集中发力在端到端和世界模型两个最热门的方向上,得益于从UniAD时期就积累的大量学术经验,并已将重点铺在了一段式端到端的量产 [3] - 公司在Diffusion、强化学习、GoalFlow、世界模型等领域颇有建树,未来预计会有更多自动驾驶和具身智能方面的基石工作问世 [4] 端到端自动驾驶技术 - ResAD框架通过归一化残差轨迹建模,将学习目标从直接预测未来轨迹转变为预测轨迹相对于惯性参考的偏差,在NAVSIM基准测试中以88.6的PDMS分数达到最先进性能 [6][8] - CorDriver框架引入"安全走廊"作为中间表示,在nuScenes数据集上相比VAD等方法,与交通参与者的碰撞率降低66.7%,与路缘的碰撞率降低46.5% [9][11] - TTOG框架统一运动预测与路径规划任务,在nuScenes数据集上平均L2误差降低36.06%,在Bench2Drive上驾驶分数提升22%,尤其在少样本场景下表现出强大泛化能力 [12][14][15] - MomAD框架引入轨迹动量和感知动量机制,在nuScenes和Turning-nuScenes数据集上显著降低长时预测和转弯场景中的碰撞率,提升轨迹平滑性和一致性 [16][18][19] - GoalFlow框架采用目标驱动的流匹配,在NavSim基准测试中PDMS分数达到90.3,仅需单步去噪即可达到优异性能,推理速度比传统扩散模型快数十倍 [20][22][24] - RAD框架基于3D高斯泼溅技术构建强化学习环境,相比纯模仿学习方法碰撞率降低3倍,显著提升驾驶安全性 [23][26][29] - DiffusionDrive框架采用截断扩散策略,在NAVSIM数据集上取得88.1 PDMS,在nuScenes上比VAD降低20.8% L2误差和63.6%碰撞率,实现45 FPS的实时性能 [27][30][35] 自动驾驶场景生成与世界模型 - Epona模型实现解耦的时空建模和异步多模态生成,在NuScenes数据集上取得最佳FVD指标,并将最长生成时长从现有方法的15秒大幅提升至2分钟 [31][33][36] - UMGen框架能同时生成自车动作、交通参与者、交通地图和图像四种关键模态,生成长达60秒的多样化、多模态一致的驾驶场景 [34][38][41] - DrivingWorld模型基于GPT风格视频生成框架,在仅使用15帧条件输入的情况下可生成超过40秒的高保真视频,时长是现有最佳模型的2倍以上 [39][42][46] 自动驾驶视觉语言模型 - AlphaDrive框架首次将基于GRPO的强化学习与规划推理相结合,在规划准确率上比仅用监督微调的模型显著提升25.52%,并展现出高效的数据利用能力,仅用20%的训练数据即可超越基线模型35.31% [43][45][47]
转行多家自动驾驶大厂的经验分享
自动驾驶之心· 2025-10-21 00:06
社区核心定位 - 社区定位为国内首个自动驾驶全栈技术交流平台,集学术与工程问题讨论于一体,目标是打造完整的自驾生态 [17][18] - 社区已汇聚超过4000名成员,目标在未来2年内发展到近万人规模 [4][5] - 成员背景覆盖国内外顶尖高校(如上海交大、北京大学、CMU、清华大学等)和头部公司(如蔚小理、地平线、华为、大疆等) [18] 社区资源体系 - 社区系统梳理了近40种自动驾驶技术方向的学习路线,涵盖感知、规划控制、仿真、端到端等核心领域 [11][19] - 资源形式包括视频课程、图文资料、技术问答和求职交流,并提供近40种开源项目、近60种数据集及主流仿真平台汇总 [4][18][19] - 提供七大专属视频教程,覆盖世界模型、自动驾驶大模型、3D目标检测等前沿主题,并已举办超过100场行业大佬直播分享 [14][91][93] 技术内容覆盖 - 感知技术全面覆盖BEV感知、3D目标检测、多传感器融合、Occupancy Network等量产关键技术,并详细梳理了纯视觉与多模态方案 [56][58][60] - 重点布局端到端自动驾驶、VLA、世界模型等前沿方向,汇总了一段式/二段式量产方案及最新学术界进展 [40][48][50] - 仿真技术聚焦3DGS与NeRF在闭环仿真中的应用,结合Carla、Apollo等平台提供工程实践指南 [42][43][86] 职业发展支持 - 建立与多家自动驾驶公司的内推机制,直接对接企业招聘需求 [14] - 社区定期探讨行业公司前景与跳槽机会,并提供岗位内推服务 [22][95] - 汇总国内外高校自动驾驶团队及企业信息,为成员提供升学与职业规划参考 [30][32]
执行力是当下自动驾驶的第一生命力
自动驾驶之心· 2025-10-17 16:04
行业竞争格局演变 - 智能驾驶行业经历近两年洗牌后,牌桌已更换一批新玩家,但工业界对自动驾驶的投入持续加大,自动驾驶被视为AI核心技术及未来重点布局方向[1] - 行业在2022年之前处于蓬勃发展期,公司只要具备单一长板(如双目技术、硬件能力或AI能力)即可获得发展机会,但此后进入收缩期或平稳期,生存和发展的关键转变为补足短板[1] - 当前在赛道中活跃且表现良好的公司或主机厂,均在系统性地提升硬件、软件、AI能力及工程落地等综合实力,行业实践表明,只有成为“六边形战士”才能在未来竞争中存活并发展得更好[1] 2025年行业展望与人才需求 - 2025年行业将进入冷静期而非收敛期,L3、L4及Robotaxi等新赛道仍存在未解决的技术问题,这为所有参与者保留了机会[2] - 行业变革对个人而言是挑战更是机遇,能够留在行业内担当主力的均为技术栈丰富的综合型人才,抱有“捞一波”心态者将被淘汰,持续积累和构建壁垒是长期受用的策略[2] 自动驾驶之心知识星球社区概况 - 社区旨在解决初学者试错成本高、缺乏完整学习体系的问题,是一个集视频、图文、学习路线、问答、求职交流于一体的综合类自驾社区,目前成员已超过4000人,目标在未来2年内达到近万人规模[4] - 社区联合了众多学术界与工业界专家,内部梳理了超过40种技术路线,并邀请数十位活跃在一线的领域嘉宾答疑解惑,内容涵盖端到端入门、VLA学习路线、数据闭环工程实践等实用主题[4][6] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为、大疆等头部公司,形成了前沿技术聚集地[17] 社区资源与技术覆盖范围 - 社区汇总了近40个开源项目、近60个自动驾驶相关数据集及主流仿真平台,技术学习路线全面覆盖感知、规划控制、仿真、端到端、VLA等核心方向[18][35][37] - 针对热点技术领域如3DGS与NeRF、世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知等,社区均进行了详细的技术梳理和内容汇总[42][44][47][49][53][55] - 社区提供原创直播课程与系列视频教程,内容涵盖感知融合、多传感器标定、SLAM、决策规划、数据工程、端到端与大模型技术等,并建立了与多家自动驾驶公司的岗位内推机制[12][13] 社区互动与专业交流 - 社区内部定期与学术界、工业界专家畅聊技术趋势与量产痛点,并举办超过一百场专业直播分享,内容涉及VLA模型、V2X、3D检测、轨迹生成等前沿话题[7][92] - 成员可自由提问并获得解答,问题范围包括研究方向选择、就业前景分析、技术路线图求取以及企业内部推荐机会,形成了良好的学习交流与求职对接环境[6][21][94]
扛内卷,一个足够有料的4000人自动驾驶社区
自动驾驶之心· 2025-10-15 23:33
行业现状与趋势 - 自动驾驶行业进入冷静期和行业整合期,技术路线趋于收敛,量产方案趋同 [2] - 行业内出现从自动驾驶向具身智能等新领域转型的趋势,部分业内资深人士投身具身智能创业 [2] - 技术发展路径存在VLA/WA(视觉语言动作模型/世界模型)的路线之争,背后是更大的行业变革 [2] - 行业洗牌加速,能够留存并担当主力的从业者多为技术栈丰富的综合型人才 [2] 社区资源与规模 - “自动驾驶之心知识星球”社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人 [4] - 社区目标在未来2年内将规模扩大至近万人,旨在打造技术分享与交流的聚集地 [4] - 社区联合了学术界与工业界专家,成员背景覆盖上海交大、北京大学、CMU、清华大学、蔚小理、地平线、华为等近300家高校及头部公司 [14] 技术内容覆盖范围 - 社区系统化梳理了超过40个自动驾驶技术方向的学习路线,包括BEV感知、多传感器融合、端到端自动驾驶、VLA、世界模型、规划控制等 [6][9][15] - 提供近60个自动驾驶相关数据集、行业主流仿真平台及开源项目的汇总资料 [15][32][34] - 技术问答涵盖端到端入门、VLA学习路线、数据闭环工程实践、多模态大模型应用等前沿实用问题 [6][7][18] 学习与课程体系 - 社区提供原创系列视频课程,内容覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划、数据工程、自动驾驶仿真、端到端及大模型技术等 [10] - 设有“自动驾驶100问”系列专题,包括TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定等工程实践主题 [9] - 针对初学者规划了全栈方向的学习课程与完备的入门技术栈路线图 [10][15] 行业交流与活动 - 社区不定期举办技术直播,已累计超过一百场,邀请学术界与工业界专家分享VLA、世界模型、3D检测、规划控制等前沿研究成果与应用 [86] - 建立与多家自动驾驶公司的岗位内推机制,为成员提供求职与跳槽机会 [10][19] - 社区内部形成交流氛围,成员可就工作选择、研究方向、技术难题等话题进行自由提问并获得解答 [88][91]
复旦SeerDrive:一种轨迹规划和场景演化的双向建模端到端框架
自动驾驶之心· 2025-10-14 23:33
文章核心观点 - 端到端自动驾驶现有方案存在忽略场景动态演化和忽视车辆行为对环境影响两大问题 [1][5] - SeerDrive提出轨迹规划与场景演化的双向建模范式,通过预测未来BEV表示捕捉场景动态,并让规划结果反馈给场景预测优化,形成闭环迭代 [3][4] - 该方法在NAVSIM和nuScenes数据集上达到SOTA性能,PDMS分数达88.9,超越Hydra-NeXt等现有方法 [23][24] SeerDrive设计原理 - 整体pipeline包含特征编码、未来BEV世界建模、未来感知规划、迭代优化四大模块 [4] - 核心是通过"预测未来场景→指导规划→反馈优化场景"的闭环实现双向交互 [4] - 采用解耦策略让当前与未来场景分别指导规划,再通过运动感知层归一化融合结果 [15] 技术实现细节 - 特征编码将多模态传感器输入和车辆自身状态编码为结构化特征,生成当前场景BEV特征图 [7][8] - 未来BEV世界建模基于当前BEV和ego特征预测未来场景演化,生成未来BEV特征而非复杂图像 [10][11] - 未来感知规划采用解耦策略分别利用当前感知与未来场景预判,避免表示混淆 [14][15] - 引入闭环迭代优化强化轨迹规划与场景演化的双向依赖,实验验证迭代2次时性能与效率最优 [16][17][18] 实验验证结果 - NAVSIM测试集上PDMS分数达88.9,超越Hydra-NeXt(88.6)、WoTE(88.3)等方法 [23] - 采用V2-99骨干网络时PDMS进一步提升至90.7,超过GoalFlow的90.3且计算成本更低 [23] - nuScenes验证集平均L2位移误差为0.43m,平均碰撞率为0.06%,显著优于SparseDrive等方法 [24] - 消融实验表明去掉未来感知规划或迭代优化均导致PDMS下降,验证双向建模和迭代优化的关键作用 [26][27] 行业技术对比 - 与UniAD、VADv2等方法仅优化规划过程不同,SeerDrive建模场景演化与规划的双向依赖 [37] - 与世界模型DriveDreamer等生成高保真图像相比,SeerDrive采用BEV表示更轻量且适配规划需求 [44] - 与WoTE仅用世界模型从候选轨迹中选最优不同,SeerDrive将未来BEV作为规划的特征级输入实现深度交互 [44]