端到端自动驾驶
搜索文档
和港校自驾博士交流后的一些分享......
自动驾驶之心· 2025-11-20 00:05
自动驾驶技术社区与资源平台 - 该公众号文章核心是推广"自动驾驶之心知识星球"社区,该社区定位为自动驾驶领域的技术交流与资源平台 [2][6][16] - 社区已运营三年,目前拥有超过4000名成员,目标在未来2年内达到近万人规模 [6][7] - 社区内容形式包括视频、图文、学习路线、问答和求职交流,覆盖40多个自动驾驶技术方向 [6][9][16] 社区成员构成与合作伙伴 - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校实验室 [16] - 企业成员包括蔚小理、地平线、华为、大疆、广汽、上汽、博世等近300家自动驾驶相关公司 [16][95] - 平台与多家自动驾驶公司建立了岗位内推机制,提供简历直推服务 [11] 技术内容覆盖范围 - 社区系统梳理了自动驾驶全技术栈,包括感知、规划控制、仿真、端到端、VLA等40多个方向 [9][16][17] - 具体技术领域包括BEV感知、3D目标检测、多传感器融合、Occupancy Network、轨迹预测、SLAM等 [10][50][52][54][57][58][77] - 涵盖前沿热点如世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、3DGS与NeRF等 [40][42][44][48][38] 学习资源与课程体系 - 社区提供原创视频课程,包括感知融合、多传感器标定、SLAM与高精地图、决策规划等9大系列 [11] - 汇总了近60个自动驾驶数据集、行业主流仿真平台及各类技术学习路线 [16][34] - 设有"自动驾驶100问"系列,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等7个专题 [10] 学术交流与行业洞察 - 定期举办星友面对面交流活动,目前已开展至第四期,邀请学术界和工业界专家探讨技术趋势 [2] - 社区内部经常解答端到端入门、多模态大模型学习路线、数据闭环工程实践等实用问题 [7] - 不定期邀请一线大佬直播分享,目前已举办超过100场专业技术直播 [87] 社区特色服务 - 为初学者提供全栈方向学习课程和技术路线图,适合0基础入门 [10][11][17] - 汇总了国内外自动驾驶高校实验室和公司信息,为升学就业提供参考 [26][28] - 提供快速问答服务,成员可自由提问工作选择、研究方向等实际问题 [89]
模仿学习之外,端到端轨迹如何优化?轻舟一篇刷榜的工作......
自动驾驶之心· 2025-11-10 03:36
文章核心观点 - 北交、轻舟、燕山大学、澳洲昆士兰大学的团队提出了一种名为CATG的新型端到端自动驾驶轨迹生成框架,该框架基于Constrained flow matching技术,旨在解决现有方法在行为多样性和安全约束集成方面的局限性[1][3][4] - CATG框架的核心创新在于彻底摒弃模仿学习,显式建模flow matching过程以缓解模式崩溃,并支持在生成过程中灵活注入多种条件信号和显式约束,从而实现对轨迹风格和安全性的精准调控[1][4][7] - 在ICCV NAVSIM V2端到端驾驶挑战赛中,CATG以51.31的EPDMS得分获得亚军,并荣获创新奖,证明了其在规划精度和对分布外数据的稳健泛化能力[1][4][22] 技术背景与问题定义 - 端到端多模态规划是自动驾驶系统的关键方法,在模糊或高度交互的驾驶场景中尤为重要,但大多数现有方法依赖模仿学习框架,导致预测结果同质化,缺乏行为多样性[3] - 现有生成式方法如扩散模型虽能捕捉更广泛的轨迹分布,但存在模式崩溃风险,且难以将硬约束集成到生成过程中,影响了生成轨迹的安全性和可解释性[3][6] 方法论创新 - 提出基于flow matching的多模态轨迹生成器CATG,无需依赖模仿学习,支持多样化、灵活的条件控制[7] - 通过渐进式机制将可行性约束和安全约束显式集成到生成过程,利用先验感知锚点设计构建约束引导的概率流,并通过基于能量的引导将轨迹导向可行区域[7][13][17] - 将环境奖励信号作为条件输入,在推理阶段实现激进驾驶风格与保守驾驶风格之间的可控权衡[7][13] 技术实现细节 - 采用Transfuser作为感知骨干网络,从标准高斯分布中采样起点,并将目标轨迹归一化到特定区间[8] - 通过多层交叉注意力机制融合智能体查询向量、自车查询向量以及鸟瞰图特征[10][12] - 在推理阶段引入三类条件控制信号:轨迹锚点、目标点和驾驶指令,以实现对生成轨迹的灵活控制[13][16] 约束集成策略 - 约束速度场:利用预计算的速度场修正模型预测的可能存在偏差的速度场,提出"合成速度场"概念[17] - 约束中间变量:通过修正流的起点,将初始高斯随机样本替换为满足约束的锚点,间接控制最终生成结果[17] - 约束感知训练:在训练阶段通过能量函数编码约束,采用能量匹配框架进行模型训练[17] 实验设置与结果 - 模型训练分为两个阶段:第一阶段训练flow matching过程、感知模块与地图分割模块,批大小设为64,学习率未明确,共训练90轮;第二阶段仅对流传匹配过程进行微调,共训练10轮[14][18] - 在NAVSIM V2挑战赛中,CATG在多项关键指标上表现优异,例如第一阶段可驾驶区域合规性达100%,交通信号灯合规性达100%,第二阶段可驾驶区域合规性达95.4416%[19] - 最终以51.3116的扩展PDM综合得分获得亚军[19]
“中文AI三大顶会”已有两家报导了理想近期AI进展
理想TOP2· 2025-11-09 14:59
中文AI媒体对理想汽车的报道热度 - 机器之心、量子位、新智元被戏称为“中文AI三大顶会”,在懂中文的AI从业者中拥有广泛读者群 [1] - 量子位于2025年11月8日发布关于ICCV自动驾驶新范式的文章,获得3.2万阅读、926大拇指赞、1617次转发和610爱心赞,阅读量在其近一周推文中排名第二 [1] - 机器之心于2025年10月31日发布关于理想汽车L4自动驾驶新范式的文章,作为次条推送获得3.9万阅读,该阅读量在机器之心的次条和头条中均属较高水平 [1] - 机器之心对理想汽车的报道跟进最为细致,覆盖了i8发布会自动驾驶内容并对多篇论文进行跟踪 [4] - 量子位除2025年11月的报道外,上一次专门撰写理想汽车的内容是对其24Q1财报的解读,再之前的报道集中在2021年 [10] - 新智元对理想汽车的上次报道集中在2022年 [15] 理想汽车自动驾驶技术进展与行业认可 - 理想汽车在ICCV 2025上提出“训练闭环”新范式,为全球首个将世界模型与强化学习结合并落地量产自动驾驶系统的公司 [2] - 该技术通过合成数据解决罕见场景问题,使MPI(人类接管里程)显著提升,技术细节扎实,对自动驾驶/AI领域从业者极具参考价值 [2] - 评论区对理想的评价非常正面,用户称赞其为“中国车企楷模”,认为其科研硬核得不像车企 [2] - 理想的研发资金近一半投在了人工智能领域 [2] - 专注于自动驾驶内容的媒体“自动驾驶之心”在2024年至2025年间约有45篇文章讲述理想汽车,表明理想已成为该领域主流玩家 [17] - 理想汽车从2021年开始辅助驾驶研发,历程从最初的BEV方案发展到无图辅助驾驶 [5] - 公司在自动驾驶技术上探索端到端(e2e)和视觉语言模型(VLM)的实现路径 [5] 理想汽车的AI战略与长期愿景 - 理想汽车在2022年9月内部达成共识,认为要实现自动驾驶,公司必须成为一家AI公司,并于2023年1月正式对外公布,目的之一是招人广告 [17] - 公司创始人李想在2015年因相信自动驾驶能实现且智能车产业足够大而选择创业,当时未意识到自动驾驶本质是AI问题 [17] - 至2024年12月,李想接受了OpenAI定义的AI五阶段理论,认为自动驾驶变成中短期可实现目标,并认为VLA是解决方案 [17] - 公司现阶段需要自己做基座模型,自己开发大语言模型(LLM) [17] - 公司从事这些研究的最终目的不仅是为了实现自动驾驶,更是基于对OpenAI AI五阶段的远期展望,为了挑战成长极限,旨在成为最顶尖的AI公司 [18] - 有AI领域账号在2025年4月对理想汽车做LLM感到困惑,不确定其是想开辟新赛道还是在车企中做差异化竞争 [17] 理想汽车在AI圈的品牌认知度 - 截至2025年5月,理想汽车在自动驾驶以外的中文AI圈知名度很低 [22] - 尽管量子位、机器之心在2025年11月的报道提升了其知名度,但预期现阶段理想在中文自动驾驶圈已非常有名并被充分认可为主流玩家,在非自动驾驶中文AI圈则知名度相当低 [22]
地平线ResAD:残差学习让自动驾驶决策更接近人类逻辑
自动驾驶之心· 2025-11-07 16:04
文章核心观点 - 地平线、华科和武大团队提出的ResAD框架通过归一化残差轨迹建模方法,解决了端到端自动驾驶中直接预测整条轨迹导致的因果混淆和规划困境两大核心问题 [2] - ResAD框架的核心思想是不直接预测整条轨迹,而是先给出一个基于物理的惯性参考线,然后让模型只学习一个调整量(残差),将学习目标从“轨迹是什么”转变为“为什么要调整方向” [2] - 该方法在NAVSIM v1和v2基准测试中均实现了最先进的性能,PDMS达到88.6,EPDMS达到85.5,展现出优秀的可行性与系统可靠性 [38][39] 技术方法创新 - **轨迹残差建模**:模型不直接从零开始预测整个未来轨迹,而是学习预测对一个简单的、基于物理的基线(惯性参考轨迹)的必要修正,量化人类驾驶员为导航环境所施加的精确修正 [17][18][19] - **逐点残差归一化**:对残差轨迹进行基于分量的标准最小-最大缩放,解决轨迹预测中坐标在时间维度上的尺度差异问题,确保优化过程不被远场误差所主导 [20][22][23] - **惯性参考扰动**:通过将随机扰动引入初始速度,生成包含略微变化的惯性参考簇,自然地产生一组多样化且与上下文相关的路径,实现多模态规划 [24][25][26] 性能表现 - 在NAVSIM v1基准测试中,ResAD的PDMS为88.6,其中NC为98.0,DAC为97.3,EP为82.5,在安全性和路线完成效率方面表现优异 [38] - 在更具挑战性的NAVSIM v2基准上,ResAD的EPDMS为85.5,比DiffusionDrive高出1.0,EP得分为88.2(对比87.5),DAC得分为97.2(对比95.9) [39] - 实车测试视频显示,在近20分钟视频中,系统在施工路段借道绕行等复杂情形下均能稳定通过,并能对动态障碍物做出智能响应 [6] 与现有方法对比 - 与传统端到端方法相比,ResAD避免了因果混淆问题(如前车刹车灯亮就刹车但不理解路口变红灯)和规划困境(过度关注不确定的远期预测) [5] - 与依赖静态预定义轨迹词库的多模态规划方法(如DiffusionDrive)不同,ResAD通过扰动惯性参考直接从高斯噪声中去噪,产生更优的、与上下文相关的多模态轨迹 [10][41] - 消融研究表明,轨迹残差建模将DAC指标从94.3提高到96.6,EP从77.8提高到80.3;结合PRNorm和惯性参考扰动后,PDMS分数从87.2提高到88.6 [43]
传统规划控制不太好找工作了。。。
自动驾驶之心· 2025-10-30 00:04
行业技术趋势 - 自动驾驶规划控制岗位的职责范围正在扩大,不再仅仅是逻辑兜底,端到端和VLA的量产趋势正在蚕食传统规划控制的生存空间 [2] - 行业秋招面试更看重规则算法与端到端技术的结合,仅掌握传统规控基础已难以获得优质offer [2] - 工业界实际关注的加分项包括不确定环境下的决策规划问题,例如Contingency Planning和博弈式交互规划经验 [2] - 业内核心议题是明确端到端技术与传统规划控制在量产中的角色定位,前沿算法如一段式、二段式、自动驾驶与大模型及VLA是未来PnC岗位必须掌握的内容 [2] - 端到端自动驾驶是近两年的热点,传统规控工程师需了解其与传统方法的优劣及实际落地中的数据驱动收益最大化策略 [29] 课程核心目标与定位 - 课程设计直面工作难点和实际量产问题,旨在教授业内使用的经典方案、热门端到端方案以及两者在实际落地中的融合方式 [6] - 课程重点的两个工程项目可直接写入简历,尤其适合缺乏相关实习经验或简历项目不突出的学员在秋招前提升竞争力 [6] - 课程为小班教学,招收学员不超过50人,主打保姆级陪伴与教学,学完目标对标2年算法工程师经验 [7] - 课程后期提供求职辅导,包括修改简历、模拟面试和推荐工作机会,以助力学员拿到offer [8] - 课程适用于有一定实习或工作基础的学员,非面向纯小白,购买本课程可免费获赠一套基础课程 [12] 课程内容与教学安排 - 课程使用C++和Python作为主要开发工具,所有代码将开源,学员需具备一定的编程基础 [15] - 课程第一章将全面复盘规划控制基础算法,建立学员对领域的整体概念和全局视野 [20] - 第二章将利用基础算法构建完整的决策规划框架,包括路径-速度解耦框架、时空联合框架及数据驱动框架 [21] - 第三章聚焦不确定环境下的决策规划问题,讲解系统性解决方案Contingency Planning,从理论到代码全方位掌握 [24] - 第四章讲解博弈交互式规划方法,通过Dynamic Game Model理论实现自车与他车的联合轨迹优化 [26] - 第五章新增端到端自动驾驶内容,涵盖一段式、二段式端到端以及VLM & VLA技术 [29] - 第六章提供PnC岗位面试辅导,包括简历修改、模拟面试及面试技巧传授 [31] 课程附加价值与成果 - 根据反馈,前两批近100名学员已成功获得华为、百度、地平线、Momenta、小米、极氪及蔚小理等公司的offer [10] - 讲师宁远老师将提供一对一简历修改和Offer选择指导,实现保姆级陪伴 [10] - 课程提供价值1000元以上的附加福利,包括首次免费简历修改(价值500元)和赠送基础课程或满减券(价值500元) [33][36] - 学员在开课一周内仍可对导师专业性提出质疑,经核实后可申请全额退款 [43]
地平线HSD的确值得留意
自动驾驶之心· 2025-10-29 03:30
地平线HSD技术体验评估 - 2025年10月在杭州西湖对A车型地平线HSD工程车进行了1.5小时试驾,辅助驾驶能力相当不错,明显优于理想L7 VLA截至2025年10月的量产版本[5] - 试驾过程中除1次三点掉头外实现0次接管,在安心感、舒适感、丝滑度、时延及堵车连续启停舒适度方面均表现良好,全程几乎没有调整速度的欲望[6] - 地平线HSD技术架构为车端视觉信息输入、输出轨迹的VA式端到端,激光雷达定位为安全冗余,云端有语言介入,认为VA式端到端还有很大潜力可挖[5] 理想汽车VLA技术对比 - 2025年8月在北京顺义体验的理想i8 VLA工程车能力明显强于当时成都L7 VLA与北京i6 VLA的量产版本[5] - 无法明确判断2025年10月杭州体验的HSD工程车与2025年8月北京体验的理想i8 VLA工程车哪个体验更好[5] - 对VLA技术的观点是认为大量时候不需要语言,且串联式VLA对算力和带宽要求过高[5] 地平线团队合作与产品差异 - 接触的三个地平线智驾团队成员诚实度很高,主动详细说明系统在极端天气、非标场景、复杂博弈下的局限性[7] - 地平线HSD在不同车型上表现差异显著,A车型工程车辅助驾驶能力很不错,而B车型则很一般,差异原因包括芯片算力不同及与车企配合度有关[6] - 地平线与主机厂合作中,车机与智驾适配需高度尊重主机厂意见,导致SR界面布局和导航操作逻辑存在不符合直觉的问题[7] 行业技术发展现状 - 地平线团队成员评估HSD目前可能有FSD V13版本约60%的水平,但属于非严谨论证[7] - HUD和车机界面构成智驾体验重要部分,SR界面应放在左边而非右边,更改导航目的地按钮的设计也需要优化[7] - 行业中存在VA式端到端与VLA两种技术路径的探讨,VA式端到端被认为还有很大潜力[5]
ICCV 2025「端到端自动驾驶」冠军方案分享!
自动驾驶之心· 2025-10-29 00:04
赛事成就与排名 - 浪潮信息AI团队在ICCV 2025自动驾驶国际挑战赛的端到端自动驾驶赛道中夺得冠军,EPDMS综合得分为53.06 [2] - 该团队提出的创新框架"SimpleVSF"在榜单中排名第一,得分显著领先于第二名(51.31)和第三名(51.08) [3] - 此次夺冠是公司继2022年、2023年登顶nuScenes榜单以及2024年在CVPR自动驾驶挑战赛夺冠后的又一重要成果 [13] 技术框架与核心创新 - SimpleVSF框架创新地构建了以鸟瞰视图感知轨迹预测为核心、视觉-语言多模态大模型辅助判断的融合方案 [2] - 框架引入VLM增强打分机制,通过将前视图像与车辆状态输入VLM生成认知指令,使轨迹评估融入对交通意图与场景语义的理解 [8] - VLM增强打分机制为单一模型带来2%的性能提升,在融合决策中提升幅度达到6% [8] - 框架采用双重融合决策机制,包括权重融合器和基于VLM的选择融合器,融合后的结果相比单一模型性能提升达10% [10][11] - 框架采用扩散模型生成高质量候选轨迹,运用ViT-L等先进视觉骨干网络进行特征提取,并引入Qwen2.5VL系列视觉语言模型 [13] 行业挑战与赛题设置 - 端到端自动驾驶当前主要问题在于难以理解如礼让行人、拥堵跟车等高层次语义与场景常识,限制了其在真实开放道路中的可靠性与泛化能力 [5] - 赛题旨在提升模型在复杂动态环境中高效可靠决策的能力,比赛分为两阶段,第二阶段基于真实场景通过Gaussian Splatting技术生成合成场景以测试模型泛化能力 [6] - 比赛引入"反应式背景交通参与者",要求模型具备交互式预测与意图理解能力,而非简单的轨迹外推 [6] - 比赛以NAVSIM v2数据驱动仿真框架作为评估平台,考验纯视觉环视相机输入的轨迹预测与行为规划能力,并优化九项关键指标 [4] 技术影响与行业意义 - SimpleVSF框架有效弥合了传统轨迹规划与视觉语言模型语义理解之间的关键鸿沟,推动自动驾驶决策从"纯几何式"向"认知式"转变 [7] - 该技术为高动态、高交互交通环境下的智能决策提供了全新思路,突破了现有端到端自动驾驶模型在复杂交通场景"难以自主判断"的局限 [2] - 端到端自动驾驶通过端到端优化有效减少了传统模块化方法中各组件间的误差累积与信息损失,被广泛认为是实现智能驾驶的重要发展方向 [5]
给自动驾驶业内新人的一些建议
自动驾驶之心· 2025-10-29 00:04
社区概况与定位 - 社区名称为“自动驾驶之心知识星球”,是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [1][3] - 社区已运营三年,当前成员规模超过4000人,并计划在未来2年内发展到近万人规模 [1][3] - 社区旨在为初学者和进阶者提供技术分享与交流平台,解决行业壁垒高、试错成本高、缺乏完整学习体系等问题 [1][3] 社区资源与技术覆盖 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,涵盖感知、规划控制、仿真、端到端驾驶等多个领域 [5][6][14][15] - 资源形式包括近40个开源项目汇总、近60个自动驾驶相关数据集、行业主流仿真平台以及各类技术学习路线 [14] - 提供原创直播课程,内容覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划、数据工程、自动驾驶仿真及端到端与大模型技术等9大系列 [9] 成员构成与合作伙伴 - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、英伟达、百度等自动驾驶头部公司 [14] - 社区与多家自动驾驶公司建立了岗位内推机制,可帮助成员简历直达心仪公司 [10] - 社区定期邀请学术界与工业界大佬进行直播分享,目前已举办超过一百场专业技术直播 [84] 具体技术内容与问答 - 社区日常讨论问题包括端到端自动驾驶入门、VLA学习路线、多模态大模型数据集、多传感器融合就业前景、3DGS与闭环仿真结合等前沿话题 [7][18] - 技术资料库详细梳理了3D目标检测、BEV感知、扩散模型、世界模型、视觉语言模型、自动驾驶VLA等热点领域的最新综述、方法汇总与开源数据集 [20][37][39][43][45] - 提供“自动驾驶100问”系列实战资料,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定等工程化主题 [8]
特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线
36氪· 2025-10-27 08:11
技术发布与核心观点 - 特斯拉在计算机视觉顶会ICCV上展示了其世界模拟器 该模拟器能够生成逼真的驾驶场景视频 [1] - 特斯拉自动驾驶副总裁Ashok Elluswamy首次揭秘了公司的自动驾驶技术路线图 并明确表示端到端AI是智能驾驶的未来 [1][5] 世界模拟器功能与应用 - 世界模拟器可为自动驾驶任务生成新的挑战场景 例如模拟右侧车辆突然连并两条线闯入预设路径 [2] - 生成的场景视频不仅用于自动驾驶模型的训练 也可作为电子游戏供人类体验 [2] - 该模拟器技术同样适用于其他具身智能场景 如特斯拉的擎天柱机器人 [4] 端到端自动驾驶技术优势 - 特斯拉采用端到端神经网络实现自动驾驶 该网络利用来自多个摄像头、运动信号、音频及地图等数据 直接生成车辆控制指令 [8] - 端到端方法相比模块化方法的主要优势包括:更易于从数据中学习人类价值观、通过梯度整体优化网络、易于扩展处理长尾问题、具有确定性延迟的同质计算 [8] - 该方法能处理复杂权衡 例如在视野开阔且对向车道无车时 决策借用对向车道绕过积水 这用传统编程逻辑难以表达 [8][10] 端到端自动驾驶的挑战与解决方案 - 端到端自动驾驶面临评估困难 特斯拉的世界模拟器正是针对此难题 它使用海量数据集训练 能根据当前状态和行动合成未来状态 用于闭环性能评估和大规模强化学习 [11] - 系统面临"维数灾难" 输入信息量巨大 例如7个摄像头×36FPS×5百万像素×30秒画面等数据 大约会产生20亿输入Token 而神经网络需将其精简为2个输出Token(转向和加速) [13] - 为解决维数灾难 特斯拉通过庞大车队每天收集相当于500年驾驶总和的数据 并使用复杂数据引擎筛选高质量样本 以提升模型泛化能力 [13] - 针对可解释性和安全性调试困难的问题 模型可以生成可解释的中间Token用作推理Token [15] 技术实现细节 - 特斯拉的生成式高斯泼溅技术具有出色泛化能力 无需初始化即可建模动态物体 并可与其他模型联合训练 [18] - 该技术中所有的高斯函数均基于量产车配置的摄像头生成 [20] - 推理过程可通过自然语言和视频背景进行 该推理模型的一个小版本已在FSD v14.x版本中运行 [21] 行业技术路线对比 - 尽管端到端被视为未来 但业界在具体算法路线上存在VLA和世界模型之争 [24] - 华为和蔚来是世界模型路线的代表 而元戎启行和理想则选择VLA路线 也有观点认为应结合两者 [24] - VLA路线的优势在于可利用互联网海量数据积累常识 并借助语言能力进行长时序推理 有尖锐观点认为不使用VLA是因为算力不足 [24] - 世界模型路线支持者则认为其更接近问题本质 例如华为车BU CEO靳玉志认为VLA路径看似取巧并不能真正实现自动驾驶 [24] - 特斯拉的方案备受关注 因其在自动驾驶发展历程中的技术选择具有风向标意义 [24]
特斯拉世界模拟器亮相ICCV!VP亲自解密端到端自动驾驶技术路线
量子位· 2025-10-27 05:37
世界模拟器技术 - 特斯拉在ICCV顶会上推出世界模拟器 可生成看似真实的驾驶场景用于自动驾驶测试 [1][4] - 模拟器功能包括生成新的挑战场景 如右侧车辆突然连并两条线闯入预设路径 以及让AI在已有场景中执行避障任务 [5][7] - 生成的场景视频不仅用于自动驾驶模型训练 还可作为电子游戏供人类体验 [9] 端到端自动驾驶技术路线 - 特斯拉自动驾驶副总裁明确表示端到端AI是自动驾驶的未来 该方法利用多摄像头图像、运动信号、音频、地图等数据直接生成控制指令 [12][13][17] - 与模块化方法相比 端到端优势包括更易从数据中学习人类价值观、通过梯度整体优化网络、可扩展性更强以及具有确定性延迟 [17][18] - 端到端架构面临评估难题 特斯拉世界模拟器通过合成未来状态来连接策略模型 以闭环方式评估性能并支持强化学习 [22][23][24] 技术挑战与解决方案 - 端到端系统面临维数灾难 输入信息可达20亿Token 需精简为2个控制动作 [26][27][28] - 公司通过庞大车队每日收集相当于500年驾驶总和的数据 并利用数据引擎筛选高质量样本以提升模型泛化能力 [29][30] - 针对可解释性问题 模型可生成中间Token用作推理Token 生成式高斯泼溅技术可建模动态物体并与端到端模型联合训练 [32][35] 行业技术路线分歧 - 业界存在VLA和世界模型两条端到端自动驾驶技术路线分歧 华为、蔚来代表世界模型路线 元戎启行、理想选择VLA路线 [38][39] - VLA路线支持者认为该范式可利用互联网海量数据积累常识 并通过语言能力进行长时序推理 有观点认为不用VLA是因算力不足 [39][40] - 世界模型支持者如华为车BU CEO认为VLA路径看似取巧不能真正实现自动驾驶 特斯拉方案因历史选择正确而受关注 [41][43][44]