自动驾驶之心
搜索文档
奔驰&图宾根联合新作!SpaceDrive:为自动驾驶VLA注入空间智能
自动驾驶之心· 2025-12-19 05:46
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 当前VLM在自动驾驶应用中面临两个根本性的系统缺陷,这限制了其作为通用驾驶Agent的上限 : 而现有VLM-based planner常常忽略了上述问题,或直接采用特定的 embedding/queries 针对某个任务进行训练来预测坐标,难以被迁移到上游推理或者其他任务中。 但是, Transformer架构本身的位置编码已经具备了处理token间位置关系的能力 ,这可以被视为 语义特征之间的空间关系 。受此启发,SpaceDrive通过 显式的、统 一的3D位置编码 替换文本数字token,将坐标的语言描述转换成可计算、可对齐、可被注意力直接使用的统一表示,从而提升了系统的空间推理和轨迹规划能力。 方法 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Peizheng Li等 编辑 | 自动驾驶之心 VLA凭借其强大的泛化能力和语义理解能力逐渐成为端到端自动驾驶新范式。然而,现有的基于2D VLM的驾驶系统在处理精细的3D空间关系时存在显著缺陷,而这 却是空间推理和轨迹规划的核心要求。 ...
Wayve最近的GAIA-3分享:全面扩展世界模型的评测能力......
自动驾驶之心· 2025-12-19 00:05
作者 | Feynman 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1979144898872627828 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 思考: 完整版: https://wayve.ai/thinking/gaia-3/ GAIA-3:规模化世界模型,驱动自动驾驶的安全与评测 将世界建模从一个视觉合成工具,转变为自动驾驶评估的基石。 大规模评估自动驾驶系统仍然是推进现实世界自动驾驶技术面临的核心挑战之一。现实世界测试对于验证安全性至关重要,但其成本高昂、受物流限制,并且数据效 率日益低下。随着驾驶模型的改进和可观测错误的减少,得出具有统计学意义的结论所需的测试里程数急剧增加。而这些里程中的大部分都是平淡无奇的,几乎无法 提供关于罕见但至关重要的安全行为的有效信息。 仿真模拟提供了一条前进的道路。虚拟环境能够实现安全、可靠、可重复且可扩展的驾驶模型测试。然而,尽管前景广阔,现有的仿真方法仍不足以对现 ...
博世拿下百亿ADAS订单
自动驾驶之心· 2025-12-19 00:05
红色星际 . 让更多人,更深入地了解自动驾驶行业! 以下文章来源于红色星际 ,作者红色星际科技 作者 | 钟声 来源 | 红色星际 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 据业界人士透露,近期智驾行业堪称"史无前例"的全球订单落地: 全球汽车销量常年稳居榜首的丰田,正式敲定百亿级全球ADAS项目合作伙伴,最 终花落博世。 该项目覆盖北美、欧盟、英国、日本等核心主力市场,可实现L2 级智驾功能,包含高速NOA。 这不仅是目前全球智驾领域规模最大的 单笔项目,更标志着智驾竞争从中国单一区域的"内卷",全面升级为全球范围内的"体系化竞合"。 在汽车产业百年变局的关键节点,这场合作的分量远超"百亿订单"本身。一边是凭借"极致品控"与全球化产销网络定义行业基准的丰田——其产品销 往全球190多个国家和地区,对供应链的稳定性、合规性、本地化适配能力的要求堪称行业天花板;另一边是深耕汽车产业链139年、稳坐全球Tier 1 头把交椅的博世。 两者的联手,本质是全球汽车产业"顶流资源"的战略锚定,更是丰田以全球龙头身份,为智驾全球化时代的供应商选择立下的"行 业标 ...
端到端落地中可以参考的七个Project
自动驾驶之心· 2025-12-19 00:05
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 导航信息、强化学习、扩散模型、自回归、时空联合规划兜底是当下端到端落地中最重要的技术栈。 近期和业内一位招聘朋友聊了聊,他们反馈 头部玩家已经验 证了端到端走的通,其他车企也开始铺 人力和资源跟进。但候选人往往只懂一部分,具体的量产经验如导航信息的引入、强化学习调优、轨迹的建模及优化都有很 多门道,都是实际的落地痛点。 为此我们花了三个月的时间设计了端到端量产进阶课程,七个项目从实战到落地层层展开。 该课程涉及的核心算法包括:一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 等,最后分享一些实际的量产经验。这门课程是自动驾驶之心联合工业界算法专家开设的《面向量产的端到端实战小班课》!课程只有一个重点:聚焦量产。从一 段式、两段式、强化学习、导航应用、轨迹优化、兜底方案再到具体量产经验分享。面向就业直击落地,所以这门课程目前不打算大规模招生, 仅剩「20名」招生 名额...... 讲师介绍 王路, C9本科+QS50 PhD,已发表CCF-A和 ...
清华UniMM-V2X:基于MOE的多层次融合端到端V2X框架
自动驾驶之心· 2025-12-19 00:05
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Ziyi Song等 编辑 | 自动驾驶之心 一、引言 传统的自动驾驶流水线具有模块化结构,面临着误差传递和泛化能力有限的问题。尽管端到端自动驾驶通过将原始传感器数据直接映射到最终控制指令提供了一种解 决方案,但这种 单体智能系统受限于传感器范围,并且在应对罕见极端事件和预测其他参与者意图方面显得力不从心 。因此,车联网(V2X)通信作为一种关键的 赋能技术,通过促进实时信息交换,有助于克服这些局限性。 本文介绍的 UniMM-V2X 框架, 首次在多智能体端到端系统中实现了感知与预测的多级协同 。它不仅打破了感知融合的局限,更引入了 MoE(混合专家模型) 架 构,为感知、预测和规划动态定制专属特征表征 。通过多级融合与 MoE 的深度协同,UniMM-V2X 在感知、预测和规划任务上均达到 SOTA 性能 ,为实现更安全、 更具可解释性的协同自动驾驶提供了全新方案。 核心特点与主要贡献: UniMM-V2X由三个主要部分组成:图像编码器、协 ...
特斯拉再一次预判潮水的方向
自动驾驶之心· 2025-12-18 09:35
文章核心观点 - 特斯拉通过其AI负责人发布的长文,系统性阐述了其FSD的技术方法论,核心是采用端到端神经网络模型,并融合了视觉重建(世界模型)和语言解释(VLA)技术来解决自动驾驶的长尾问题[4][6][8][10] - 行业对端到端、VLA(视觉-语言-动作)和世界模型三大技术概念存在争论,但文章提出反共识观点,认为三者并非对立,而是层层递进的关系:端到端是基座,VLA是升级,世界模型是终极形态[11][12] - 特斯拉的技术路径预判并整合了当前所有主流技术方向,其闭麦两年后通过一篇论文强势回归,再次引领行业技术潮流[4][20] 技术概念解析与关系 - **端到端神经网络**:是一个完全颠覆性的模型,需要将所有的设计思路、代码编写、验证方式全部推倒重来,被视为自动驾驶行业一次彻底的升级变革[11] - **VLA(视觉-语言-动作)**:本质上是端到端模型的延伸,在模型中加入了语言(Language)信息,其核心并非多一个信息输入,而是让模型通过语言方式将信息可视化输出[12] - **世界模型**:通俗理解是根据提示生成视频,目标是建立基于视频/图像的“时空认知”,以弥补语言模型在低带宽和信息描述上的短板[12][15][16] - **三者关系**:端到端是基座,VLA是在此基础上加入语言模型的升级,世界模型则是对空间的理解和重塑,与前两者不同,三者是层层递进而非非此即彼[12][19] 行业技术路线与玩家格局 - **端到端路线**:主要由智驾公司推动,如地平线、博世、Momenta,因其成本相对较低、稳定度高且易于规模化部署[13] - **VLA路线**:理想、小鹏、元戎启行是主要拥趸者,但该路线的长期价值遭到华为和蔚来高层的反对[13] - **世界模型路线**:华为和蔚来是主要拥趸者,认为自动驾驶更需要“时空认知”或“空间智能”,而非依赖语言通道[13][16] - **技术融合现状**:端到端与规则代码并不冲突,头部企业如华为在采用端到端方案时仍会使用规则兜底[11] 目前行业存在一段式和两段式端到端方案并存的局面[11] 在实际系统中,为保障高效运转,通常会组合使用多个模型,并可能加入强化学习[19] 特斯拉的技术方案与创新 - **解决端到端模型调试难题**:提出两种方法,一是利用“生成式高斯泼溅”技术在220毫秒内根据摄像头视频实时生成动态3D环境模型(视觉重建/世界模拟器)[8] 二是训练AI用自然语言解释自身行为,一个小型化语言推理模型已在FSD v14.x版本中运行[10] - **云端训练与仿真**:在云端开发“神经世界模拟器”,这是一个能实时生成以假乱真虚拟世界的强大AI,用于对FSD进行极端场景的压力测试和7x24小时训练,再将训练好的模型下放到车端实现降维打击[17] 技术发展的本质与趋势 - **端到端的意义**:标志着自动驾驶真正由人工规则进入智能学习的开始[19] - **VLA的争议核心**:争议焦点在于将所有信息转换为语言是否必要,反对者认为智能驾驶的本质更需要对空间的理解而非语言能力[16] - **世界模型的目标**:旨在补齐语言模型在“时空认知”上的短板,直接建立高带宽的认知系统[15][16] - **系统架构演进**:从理想早期包含端到端和VLM两个模型的“快慢思考”架构,到VLA的单一模型决策,再到世界模型与端到端等多个模型的组合,系统架构随技术演进不断变化[19] - **学习模式进化**:行业趋势正从模仿学习转向强化学习,让系统通过探索“好的行为”并获得奖励来超越人类驾驶水平[19]
输出你的insights,我们在招募这些方向的合伙人......
自动驾驶之心· 2025-12-18 09:35
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自动驾驶已经进入下半场,行业的难点和痛点需要更多有志之士参与进来一起突破。后面我们将陆续为 大家增加圆桌访谈、实战&工业级课程、咨询等各类输出。 作为国内自动驾驶领域创作的技术平台,我们期望能够在这波激流中贡献自己的力量,成为一个真的能 给行业带来价值的平台。 众人拾柴火焰高,我们需要更多优秀的伙伴加入我们。 岗位说明 主要面向自动驾驶培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多学生、求职类人 群)、课程开发和原创文章创作。 联系我们 待遇与合作方式,欢迎添加微信wenyirumo做进一步沟通。 主要方向 包括但不限于:自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学 习、端到端等多个方向。 ...
开源首次追平GPT-5!DeepSeek-V3.2:推理与效率兼得
自动驾驶之心· 2025-12-18 09:35
DeepSeek-V3.2 与其同类模型的基准测试结果。 开源模型的三大痛点 要理解DeepSeek-V3.2的突破性,首先需要正视当前开源模型普遍面临的三大核心困境。 从 架构层面 看,传统开源模型大多依赖 标准注意力机制(vanilla attention) ,这种机制在处理长序列文本时,计算复杂度会随序列长度的平方增长 (O(L²)),不仅导致推理速度缓慢,更限制了模型在长上下文场景中的部署与后续训练优化。 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 在 大语言模型 (LLM)的发展赛道上,闭源与开源阵营的实力差距曾一度呈现扩大态势。随着OpenAI等巨头持续加码算力与数据投入,其闭源模型在 复杂推 理、工具使用 等核心能力上不断突破;而开源社区虽不乏创新尝试,但受限于架构效率、训练资源等多重因素,在高端任务场景中始终难以望其项背。这种不 平衡的发展格局,让业界对开源模型的上限充满疑虑——开源LLM是否注定只能成为闭源模型的"简化版替代品"? 面对这一趋势,DeepSeek团队并未止步,而是通过系统性技术创新,推出了 DeepSeek-V3.2 。这款兼顾计算效 ...
世界模型是一种实现端到端自驾的途径......
自动驾驶之心· 2025-12-18 03:18
文章核心观点 - 世界模型并非端到端自动驾驶本身,而是一种实现端到端自动驾驶的技术途径[2][5] - 端到端自动驾驶定义为没有显式信息处理与决策逻辑,从信息输入直接输出决策结果的模型[3] - 世界模型定义为接受信息输入,内在建立对环境的完整认知,能够重建和预测未来变化的模型[4] - 行业正通过推出专业课程,系统性地传授世界模型在自动驾驶领域的算法、应用与实战经验,以推动技术落地和人才培养[5][15] 课程内容与结构 - 课程共分六章,从概述、基础知识到前沿模型、实战应用及行业经验,系统覆盖世界模型技术栈[10][11][12][13][14] - 第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例、不同技术流派及其在业界解决的问题环节[10] - 第二章讲解世界模型涉及的背景知识,包括场景表征、Transformer、BEV感知等,是求职面试高频技术点[10][11] - 第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、导航世界模型、DriveVLA-W0及特斯拉世界模型模拟器等热门工作[11] - 第四章聚焦视频生成类世界模型,涵盖Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等经典与前沿工作,并以商汤OpenDWM进行实战[12] - 第五章聚焦OCC生成类世界模型,涵盖清华OccWorld、复旦OccLLaMA、华科HERMES、西交II-World等三大论文及一个项目实战,该方法可扩展至自车轨迹规划[13][17] - 第六章分享世界模型在工业界的应用现状、行业痛点、解决目标以及相关岗位的面试准备与公司关注点等实战经验[14] 讲师与课程目标 - 讲师Jason拥有C9本科与QS50博士背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知与端到端算法的量产交付,具备丰富的研发与实战经验[7] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,帮助学员真正理解端到端[15] - 课程期望使学员达到相当于1年左右经验的世界模型自动驾驶算法工程师水平,掌握技术进展并能复现主流算法框架[18] - 学员需自备推荐算力在4090及以上的GPU,并具备自动驾驶基础、Transformer大模型、扩散模型、BEV感知、概率论、线性代数及Python/PyTorch编程基础[18] 课程安排与形式 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[19] - 章节内容按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁[20]
纯图像理解的时代该翻篇了!MMDrive:给自动驾驶装上「多模态大脑」
自动驾驶之心· 2025-12-18 03:18
文章核心观点 - 传统自动驾驶视觉语言模型在复杂真实路况中存在三维感知能力不足、语义融合有限、关键信息提取效率低等瓶颈,需要从“图像理解”向“场景理解”进行范式转换 [2][3] - 研究提出的MMDrive模型通过融合多模态信息、引入文本导向的多模态调制器和跨模态抽象器,构建了更立体、更智能的场景理解能力,在权威基准测试中性能领先,尤其在复杂和低能见度场景中表现出更强的鲁棒性 [5][8][30] - 该技术框架为自动驾驶高阶感知、仿真测试、智能交通及驾驶辅助等应用提供了新的可能性,代表了行业技术发展的一个重要方向 [31] 传统方法的局限性 - 主流自动驾驶视觉语言模型采用“图像+文本”双分支架构,视觉与文本特征仅进行硬拼接,缺乏深度交互,限制了跨模态语义对齐 [3] - 模型基于二维图像,难以表达深度、空间布局等关键三维信息,在遮挡、恶劣天气等复杂动态环境中关键信息提取效率低 [3][5] - 仅依靠前向摄像头图像,在遮挡等情况下无法准确判断场景全貌(如后方车辆状态),揭示了平面视觉感知的固有缺陷 [5] MMDrive的核心技术突破 - **多模态信息融合**:模型引入了三类互补信息源——提供稠密三维空间结构的占据栅格地图、提供精确几何与深度信息的激光雷达点云,以及通过两阶段策略生成的高层语义文本场景描述,共同构建立体场景表征 [12][15] - **文本导向的多模态调制器**:该组件能根据输入文本问题的语义内容,动态调整不同模态信息的融合权重,实现问题感知的自适应特征融合,避免信息稀释 [17][20] - **跨模态抽象器**:该组件通过学习一组“抽象令牌”来提取跨模态的关键信息,形成紧凑的语义摘要,使大语言模型能更高效地聚焦核心内容,实验表明16个抽象令牌是性能最佳配置 [21] 实验结果与性能表现 - **定量结果领先**:在DriveLM基准测试中,MMDrive在BLEU-4、METEOR、ROUGE-L、CIDEr四项指标上分别达到54.56、41.78、75.27和3.63,全面超越对比模型 [22] - **细分任务优势明显**:在NuScenes-QA基准测试中,MMDrive在计数、状态查询、比较类问题上表现突出,其整体准确率达到62.7,显著高于其他对比方法 [24] - **定性结果稳健**:在夜间、雨天等低能见度场景中,模型仍能保持较高的判断准确率,并能识别传统方法易忽略的细节(如与背景颜色相近的标志牌、远处小型物体) [26][30] 应用前景与未来展望 - **自动驾驶系统**:可作为高阶感知模块,用于复杂路口理解、施工区识别和异常事件判断,并为预测与规划模块提供丰富的语义场景表示 [31] - **仿真与测试**:可用于生成高质量场景描述以测试系统语义理解能力,并支持多模态问答用于驾驶员行为分析与系统评估 [31] - **智能交通与车路协同**:通过车路多模态信息融合提升全域交通态势感知,支持自然语言交互的交通指挥与调度系统 [31] - **驾驶教育与辅助**:为驾考模拟与危险场景教学提供可解释的问答支持,增强ADAS系统的交互能力 [31] - **技术演进方向**:未来研究将围绕长时序预测与协同规划、模型轻量化以适应车载部署,以及生成可解释的决策推理链条展开 [31]