Workflow
自动驾驶之心
icon
搜索文档
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-10-13 23:33
技术交流社群 - 自动驾驶行业成立了专注于前沿技术方向的技术交流群 [1] - 技术交流群覆盖世界模型、端到端、VLA等当前行业重点研究方向 [1]
地平线残差端到端是如何实现的?ResAD:残差学习让自动驾驶决策更接近人类逻辑
自动驾驶之心· 2025-10-13 23:33
文章核心观点 - 地平线、华科和武大团队提出的ResAD框架通过归一化残差轨迹建模方法解决了端到端自动驾驶中因果混淆和规划困境两大核心问题 [2][5][49] - ResAD不直接预测整条轨迹而是先提供惯性参考线再让模型学习调整量将学习目标从轨迹预测转变为理解驾驶决策原因 [2][16][18] - 该方法在NAVSIM v1和v2基准测试中实现了最先进性能PDMS达886 EPDMS达855展现出卓越的安全性和规划效率 [36][37][38][39] 技术方法创新 - 轨迹残差建模将真实轨迹与基于恒定速度模型的惯性参考线之间的差值作为学习目标迫使模型关注导致方向调整的因果因素 [16][17][18] - 逐点残差归一化技术通过最小-最大缩放解决远场误差主导优化问题确保模型优先关注近处安全关键的小调整 [3][19][20][21] - 惯性参考扰动机制通过对自车速度添加随机噪声生成多模态轨迹假设摆脱对静态预定义轨迹词库的依赖 [22][23][24][40] 性能表现 - 在NAVSIM v1基准上ResAD的PDMS为886其中无责任碰撞率为980可行驶区域合规性为973自我进度为825 [36][37] - 在更复杂的NAVSIM v2基准上EPDMS提升至855在行驶方向合规性达995交通信号灯合规性达998车道保持能力达970 [38][39] - 消融研究表明轨迹残差建模将DAC指标从943提升至966惯性参考扰动将PDMS从872进一步提升至886 [42] 行业比较优势 - 相较于DiffusionDrive等依赖静态预定义轨迹词库的方法ResAD生成的轨迹与驾驶上下文更一致避免了无效路径规划 [9][40] - 该方法在Transfuser和TransfuserDP两种异构规划模型上均显著提升性能PDMS分别提高14和13验证了其通用有效性 [46][48] - 实车测试显示系统能处理施工路段借道绕行动态障碍物切入等复杂场景并做出拟人化决策如平稳减速和主动超车 [6]
工业界大佬带队!自动驾驶4D标注全流程实战(动静态/OCC)
自动驾驶之心· 2025-10-13 23:33
自动驾驶数据训练趋势 - 自动驾驶能力的提升依赖于千万级训练数据,其核心动力来源于数据闭环系统持续产出的自动化4D标注数据[1] - 随着端到端和VLA技术的广泛采用,训练数据需求日益复杂,不再局限于2D框、3D框等单帧静态元素标注,而是需要时间同步后的传感器统一标注动静态元素、OCC和轨迹等[1] - 面对复杂的标注需求,自动化4D标注的重要性日益凸显,是保证训练数据完整性的关键[1] 自动标注算法的技术挑战 - 高性能自动标注算法是核心,需解决不同城市、道路、天气和交通状况下的传感器标定与同步问题[3] - 算法需克服跨传感器遮挡问题,并保持泛化能力,同时面临高质量标注结果筛选和自动化质检等工业界实际痛点[3] 课程核心内容与目标 - 课程系统讲解自动驾驶4D自动标注全流程及核心算法,结合真实落地算法和实战演练,旨在提升学习者算法能力[6] - 核心内容包括全面掌握4D自动标注整体流程和核心算法,每章节配套大量实战内容[6] - 具体技术覆盖动态障碍物检测、跟踪、问题优化、数据质检,基于重建图的静态元素标注,通用障碍物OCC标注全流程,以及端到端标注的主流范式和实战教学[6] 课程实施与支持 - 课程采用线上直播、代码讲解和线上答疑相结合的模式,提供配套资料和源码示例[10] - 学员享有微信群答疑服务,答疑时间持续至2026年4月,课程购买后1年内有效并可反复观看[10]
小米第三款车要来了!雷军胡峥楠亲赴新疆试车,多张谍照曝光
自动驾驶之心· 2025-10-13 04:00
以下文章来源于车东西 ,作者R 车东西 . >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 雷军远赴新疆,要亲自测试小米第三款车? 车东西10月11日消息,今日,有一段疑似小米第三款车型(以下暂时称为小米YU9)在新疆路测的视频在网上曝光。 未来汽车看车东西!智能汽车产业专业新媒体车东西专注智能汽车产业创新,重点关注自动驾驶、智能座舱、整车创新等;用专业视角,大众认知传播智 能汽车新技术新体验。 本文转自《车东西》(ID:chedongxi) 作者 | 张睿 编辑 | 志豪 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 同时就在今天下午,小米创办人、董事长兼CEO雷军在社交媒体上发文,表示他来到了新疆塔县,进行小米汽车高原测试,而这引起了网友们的猜测,雷军 可能是来到新疆亲自测试小米的第三款车。 ▲雷军在社交媒体上发文表示来到了新疆 此外,除了雷军,小米汽车高级顾问胡峥楠和小米集团副总裁、采购委员会主席、资产与工程管理部总经理张剑慧等小米高管的社交媒体账户IP属地均显示 为新疆,看起来很多小米高管都前往新疆参与此 ...
端到端和VLA占据自动驾驶前沿方向的主流了。。。
自动驾驶之心· 2025-10-13 04:00
端到端自动驾驶算法技术趋势 - 端到端自动驾驶已成为量产核心算法 技术栈丰富 主要分为一段式和两段式两大范式 [1] - 一段式代表性算法为UniAD 直接从传感器输入建模自车轨迹输出 二段式基于感知结果进一步输出自车和他车轨迹 [1] - 一段式算法衍生出多个子领域 包括基于感知 扩散模型 世界模型及VLA的端到端算法 其中VLA相关论文呈现爆发式增长 工业界加速量产布局 [1] 自动驾驶技术课程内容架构 - 行业推出《端到端与VLA自动驾驶小班课》和《自动驾驶VLA和大模型实战课程》 由工业界与学术界专家联合授课 聚焦前沿技术方向 [3] - VLA实战课程涵盖三大领域:从VLM作为自动驾驶解释器 到模块化VLA 一体化VLA 以及主流推理增强VLA 配套理论基础与实战大作业 [3] - 端到端课程重点讲解一段式/两段式算法 涵盖BEV感知 大语言模型 扩散模型和强化学习 设置Diffusion Planner和ORION算法两大实战项目 [10] 课程师资与学员要求 - 师资团队包括清华大学硕士生及QS30高校博士 在ICCV/IROS/EMNLP等顶级会议发表多篇论文 具备多模态感知 VLA算法研发及量产交付经验 [7][9][10] - 学员需自备GPU 推荐算力在4090及以上 需具备自动驾驶基础 Transformer大模型 BEV感知等技术概念 以及概率论 线性代数和Python/PyTorch编程能力 [13]
30场重磅报告|第三届自主机器人技术研讨会火热报名中,探访两大Top企业!
自动驾驶之心· 2025-10-12 23:33
今年不容错过的重磅学术会议,ARTS 2025 将带领参会者走进「 宇树科技 」与「 微分智飞 」进行实地参访交流。 2025年10月18日-19日, 第三届自主机器人技术研讨会 (ARTS 2025)将在中 国· 浙江大学 (玉泉校区)盛大举办 。 在常规学术议程基础之上,ARTS 2025 进一步推出 ARTS奖学金 、 学术辩论赛 、 学术吐槽大会 (脱口秀) 及 企业参观。 旨在打破传统会议单向输 出的模式,让思想的碰撞不止于论文宣讲,构建产学融合与坦诚对话的立体化交流场景。 会议将组织参会者走进一线企业: 「 宇树科技 」「 微分智飞 」 等多元活动。 我们诚挚邀请国内外学界同仁、科研工作者及行业工程师踊跃报名, 共筑新知。 了解会议详情,扫码加入 【 ARTS 2025 交流群】 ARTS 2025 组织机构 主办单位 : 中国自动化学会 承办单位 : 浙江大学控制科学与工程学院 上海交通大学自动化与感知学院 协办单位 : 深蓝学院 ARTS 2025 会议议程 | 09:00-09:10 | 开幕式 | | --- | --- | | 09:10-09:20 | 企业颁奖 | | 09:20-0 ...
Waymo提出Drive&Gen:用生成视频评估端到端自动驾驶(IROS'25)
自动驾驶之心· 2025-10-12 23:33
文章核心观点 - 自动驾驶领域出现新范式,即端到端驾驶模型与视频生成模型的结合,旨在解决彼此的评估和性能提升难题 [3] - Waymo、谷歌DeepMind与约翰霍普金斯大学联合提出Drive&Gen框架,通过协同评估方法连接驾驶与生成模型,实现双向赋能 [3][6] - 该框架证明高质量合成数据能有效诊断并提升E2E规划器的泛化能力,尤其在分布外场景下性能提升显著 [17][21][23][24] 技术框架与原理 - Drive&Gen框架包含一个可控的视频生成模型和一个E2E驾驶规划器,核心思想是"协同评估" [8] - 视频生成模型基于W A L T视频扩散模型扩展,能通过场景布局和运行条件等丰富控制信号生成高度定制化驾驶视频 [9][11] - 提出全新评估指标"行为置换检验",通过比较规划器在真实与生成视频上的轨迹集合差异来量化生成视频的真实性 [13] - BPT指标比传统FVD和ADE更能捕捉影响驾驶决策的关键差异,例如当移除车辆边界框信息时,BPT和ADE显著恶化而FVD变化不大 [14][16] 实验验证与性能提升 - 在相同条件下,生成视频能让规划器产生与真实视频相似的轨迹预测,BPT失败拒绝率达到69 62%,接近95%的理论上限 [18][19] - 利用合成数据微调E2E规划器后,整体性能提升:在真实验证集上的5秒平均位移误差从0 7548降低至0 7333 [21][22] - 在雨天分布外场景中,性能提升明显,ADE@5s从0 8536降低到0 8382 [23] - 在夜间场景下,ADE@5s从0 7372降低到0 7101 [24] - 定性结果显示,经合成数据微调后模型能做出更果断安全的驾驶决策,如减少绿灯前犹豫停车和绕行迟缓等问题 [25] 行业影响与前景 - 高质量可控合成数据被证明是极具成本效益的方案,能有效弥补真实世界数据不足,帮助拓展自动驾驶运行设计域 [26] - 该研究为生成式AI赋能自动驾驶研发提供了系统性评估和优化方法论,推动在虚拟世界中训练和测试自动驾驶的进程 [26]
聊聊 AI Agent 到底有多大创新?
自动驾驶之心· 2025-10-12 23:33
AI Agent技术当前面临的核心挑战 - 规划阶段耗时巨大,工具增多后Turbo系列模型准确率堪忧,被迫使用旗舰模型进一步增加延迟 [1][2] - 规划质量不高,模型自主构建的复杂工作流可用率远低于人类水平,简单工作流使用判别式小模型性能更优 [2] - 反思策略易导致自我内耗和死循环,是一种以时间换取准确度的策略 [3] Planning延迟问题的本质与优化方案 - 核心是工具发现和参数对齐成本被低估,工具数量从5个增至50个,搜索空间呈指数级膨胀,导致弱推理模型准确率低,强推理模型延迟高 [5] - 解决方案包括工具层缩小范围进行分层治理,例如使用意图分类器将请求路由到具体域,每个域仅暴露5-10个核心工具 [5] - 将串行执行改为DAG并行,对于无依赖关系的工具调用,并行化可使整体链路耗时缩短20% [6] - 在项目起始节点增加路由策略,简单任务路由给SLM或专用执行器,复杂任务才使用强推理模型 [6] Planning质量问题的根源与提升路径 - 模型生成的文字描述计划缺乏可执行性和全局约束,传统人工设计的workflow具有明确的分支条件和异常处理机制 [8] - 采用HiPlan思路,将计划拆分为“里程碑+局部提示”两层,高层管战略目标,低层负责战术细节,里程碑可离线积累复用 [8] - 提供结构化计划框架(类似DSL),强制模型输出符合语法的计划,可将企业场景工具调用准确率提升平均20多个百分点 [10] - 引入搜索式规划(如LATS将MCTS引入Agent)和多轮RL训练(如RAGEN、LMRL-Gym),以提升长程任务的成功率 [12][14] Reflection死循环问题的成因与解决思路 - 根本原因是缺乏细粒度的可计算信号和明确的停机条件,反思仅依赖主观判断易强化错误假设 [15] - UFO研究采用最简单的一元反馈(如“Try again”)进行多轮RL,无需详细错误诊断即可实现自我改进 [17] - Tool-Reflection-Bench将反思过程结构化,让模型学会基于证据诊断错误并提出可执行的后续调用 [18] - 工程层面可设置硬性上限(max_rounds)、无进展退出(no-progress-k)、状态去重(state-hash)和成本预算(cost-budget)等终止机制 [20] AI Agent技术的价值与发展趋势 - AI Agent是LLM在现实场景业务落地最有价值的技术应用方向,其架构虽非重大创新,但同时降低了应用下限并提升了能力上限 [21] - 现阶段问题将随基于RL训练的Agent模型能力提升而逐步解决,但工程化的生产业务架构和Human-in-the-loop的优化仍至关重要 [21] - 通过RL训练,Agent模型在垂直领域(并逐步扩张至通用领域)具备很高的实用价值,且价值持续扩大 [21]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-12 23:33
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在一段式和两段式两种主要范式,一段式代表为UniAD,直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2024年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法 [3] 主流企业技术布局 - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力端到端自动驾驶的自研量产 [3] - 端到端与VLA技术栈涉及BEV感知、视觉语言模型、扩散模型、强化学习等核心内容,是学术界和工业界最前沿的技术方向 [5] 端到端技术核心内容 - 二段式端到端领域涌现出经典算法PLUTO、CVPR'25的CarPlanner以及最新工作Plan-R1等优秀成果 [10] - 一段式端到端子领域包括基于感知的UniAD、基于世界模型的Drive-OccWorld与OccLLaMA、基于扩散模型的DiffusionDrive与DiffE2E,以及基于VLA的ORION与OpenDriveVLA [12][14] - 基于VLA的端到端方法被视为目前端到端自动驾驶的皇冠,上限高且业内招聘需求旺盛,是业界预研的新一代量产方案 [14] 关键技术发展动态 - 扩散模型思想自2024年下半年被引入多模轨迹预测,相比单模轨迹能更好适应自动驾驶不确定环境,并可与其他方法结合实现VLA [14] - 世界模型应用广泛,不仅可用于场景生成、端到端,还可用于闭环仿真,是近两年非常热的技术方向 [14] - VLA技术融合了VLM、BEV、扩散模型、强化学习等多种技术,是端到端发展的前沿 [14]
今晚截止!自动驾驶之心国庆&中秋节活动倒计时
自动驾驶之心· 2025-10-12 06:58
课程与星球优惠活动 - 平台课程提供八折优惠券,超级折扣卡可享受课程七折优惠 [3] - 知识星球新人享受七折优惠,续费用户可享受五折优惠 [4] - 当前有7折优惠活动,立减80元或99元,节后将再次涨价 [1] - 购买优惠可获赠7门精品课程 [1] 知识星球核心内容 - 星球定位为最前沿的自动驾驶技术社区,涵盖近40+学习路线 [6] - 核心技术与研究方向包括世界模型、闭环仿真、扩散模型、BEV感知、VLA等 [6] - 提供学术界与工业界大佬的面对面交流机会,包括顶会作者亲临 [6] - 社区讨论主题涵盖VLA和WA的路线之争、未来自驾发展方向、端到端技术等 [6] 附加服务与福利 - 大模型星球年费99元,内容覆盖技术、行业与求职 [1] - 提供1v1辅导服务,最高可抵扣5000元 [1] - 提供1v6论文辅导服务,可立减1000元 [1] - 超级折扣卡售价299元,可使自驾课程享受七折优惠,有效期一年 [1]