Workflow
自动驾驶之心
icon
搜索文档
基于Qwen3-VL的自动驾驶场景实测......
自动驾驶之心· 2025-12-12 07:35
文章核心观点 - 阿里通义最新的Qwen3-VL多模态大模型在自动驾驶场景的实测中表现卓越,展现出强大的通用视觉语言基础能力,能够在未经专门自动驾驶指令微调的情况下,对复杂交通场景做出合理、连贯且带有安全意识的判断,这为通用视觉语言模型在垂直领域落地提供了更多可能性 [2][82] 场景理解和空间推理 - 模型能够准确描述图片中的场景,包括天气状况、道路类型以及是否存在行人或车辆等基础感知任务 [7][8][9][10][14][16][17] - 模型具备深度的空间推理能力,能够判断距离自车最近的车辆、前方车辆的移动状态、旁边车辆的变道意图、前方车辆的数量与位置、自车所在车道以及车道线数量 [20][21][24] - 模型能够识别交通信号灯及其颜色 [25] 行为决策和因果推理 - 模型能够基于当前情况,为自车提供加速、减速或保持速度的行为决策建议 [28] - 模型能够识别图像中最大的潜在危险 [29] - 模型能够准确识别并解释多个交通标志(如黄色弯道警告标志、绿色ETC指示标志、F200里程牌),并说明相应的应对措施,强调安全驾驶原则 [30][31][32][33] - 模型能够判断在特定场景下是否应该变道并解释原因 [35] - 模型能够根据交通参与者的动态状态、距离和潜在风险,对其危险程度进行从高到低的排序 [37][39][40][41][42] - 模型能够解释旁边车辆“闪灯”的现象,指出其实际是夜间正常开启的大灯,并分析了可能的误解来源 [43][44][45][46] - 模型能够针对安全超车提供详细指导,但在实测的特定夜间场景中,基于对向来车、能见度低、道路条件等因素,强烈不建议尝试超车 [47][48][49] 时序理解与动态变化 - 模型能够分析多帧图像序列,判断前方车辆的相对速度是在增加还是减少,并结合交通场景(如出现拥堵排队)进行逻辑推断 [51][52][53][54][55][56] - 模型能够解释交通流从畅通到拥堵的演变过程,阐述其典型阶段,并分析最初可能引发拥堵的局部扰动事件(如前方车辆突发减速、道路瓶颈、外部干扰) [57][58][59][60] - 基于对拥堵场景的分析,模型明确指出在车辆紧密排队、道路条件禁止的情况下,超车极不安全,并列举了核心风险点 [61][62][63][64][65][66] - 在动态场景中,模型能判断哪个交通参与者的行为最危险 [69] - 模型能够模拟复杂突发事件的演变过程,例如旁边停靠车辆突然爆胎后,在隧道场景中可能引发的一系列连锁反应 [71][72][73][74][75] 测试亮点与总结 - Qwen3-VL展现了精准的场景理解、深度的空间推理、动态行为预测、突出的安全意识以及多帧时序理解等多项能力 [81] - 该模型的表现显示出,未来基于通用大模型的自动驾驶系统可能通过“常识推理+多模态理解”的方式,实现更高效、泛化和可信的驾驶决策,减少对海量场景数据反复打磨的依赖 [82]
自动驾驶之心论文辅导推出了(端到端/OCC/BEV/VLA等方向)
自动驾驶之心· 2025-12-12 07:35
如果您有任意论文发表需求,支持带课题/研究方向咨询,欢迎联系我们, 微信:paperguidance 提供的服务 中稿率很高哦! 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 自动驾驶之心论文辅导正式推出,国内最专业的师资来啦! 如果您是端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、3DGS、BEV感知、Occupancy Network、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、Flow matching、点云感知、毫米波雷 达、单目感知、车道线/在线高精地图等方向。 论文选题; 论文全流程指导; 实验指导; 申博指导; 论文中已有多篇被CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等顶会顶刊收录。 根据不同论文级别,辅导价格不同,具体如下: 自动驾驶顶会/顶刊,CCF-A、CCF-B、CCF-C等; SCI一区~四区; 中科院1区,2区,3区,4区; EI/中文核心; 毕设论文/申博/比赛等; 更多咨询 更多论文辅导内容,欢迎咨询科研助理, 微信:paperguidance ...
正式开课!7个Project搞懂端到端落地现状
自动驾驶之心· 2025-12-12 03:02
行业招聘需求与技术趋势变化 - 自动驾驶行业招聘需求正发生变化,两年前热门的感知岗位需求进一步收缩 [2] - 当前行业需求较高的技术方向集中在端到端、视觉语言动作模型和世界模型等领域 [2] - 头部玩家已验证端到端技术路径可行,其他车企正跟进投入人力和资源,从模型、场景、数据优化到下游规划兜底进行布局 [2] - 市场面临合格候选人供给不足的挑战,候选人往往只精通部分技术栈,而相关岗位要求广泛的技术能力 [2] - 具体的量产经验,如导航信息引入、强化学习调优、轨迹建模及优化,是实际落地中的关键痛点和门道 [2] 课程核心定位与内容设计 - 课程名称为《面向量产的端到端实战小班课》,核心重点是聚焦量产应用 [2] - 课程设计历时三个月,包含七个实战项目,从实战到落地层层展开 [2] - 课程核心算法覆盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型结合强化学习、自回归结合强化学习、时空联合规划等 [2] - 课程最终会分享实际的量产经验,目标面向就业与直接落地 [2] - 课程采用小班制,目前仅剩20个招生名额 [2][4] 端到端技术架构演进与核心模块 - 在端到端时代,感知任务的合并与规控算法的学习化已成为绝对主流 [7] - 如何更高效合并感知任务及设计规控的学习化模块是各大公司的核心必备技能 [7] - 两段式端到端框架涉及感知与规划控制的建模及信息传递方式,有其特定优缺点 [8] - 一段式端到端框架可实现信息的无损传递,因此在性能上通常优于两段式方案,具体方法包括基于视觉语言动作模型和基于扩散模型的方法等 [9] - 导航信息在自动驾驶中起引导、选路、选道的关键作用,其地图格式、内容及在端到端模型中的编码与嵌入方式是重要课题 [10] 算法训练策略与量产保障方案 - 仅依靠模仿学习存在局限,因人类驾驶风格迥异且部分极端场景数据难采集,需结合强化学习以学习因果关系并实现泛化 [11] - 课程项目实战涵盖基于模仿学习的算法,并重点介绍基于扩散模型和自回归的算法,在监督微调后会继续讲解强化学习实战 [12] - 在量产落地阶段,为确保轨迹稳定可靠,需有后处理的兜底逻辑,例如通过轨迹平滑优化算法对模型直出结果进行优化 [13] - 时空联合规划是重要的兜底方案,涉及多模态轨迹打分搜索及轨迹平滑等算法 [13] - 量产经验分享将从数据、模型、场景、规则等多个视角,剖析如何选用合适工具和策略以快速提升系统能力边界 [14] 课程安排与学员要求 - 课程面向进阶学员,开课时间为11月30日,预计三个月结课,采用离线视频教学配合VIP群答疑及三次线上答疑的形式 [15] - 课程章节按计划解锁,例如第一章于11月30日解锁,第二章于12月7日解锁,后续章节按周或月间隔陆续开放 [16][18] - 学员需自备图形处理器,推荐算力在4090及以上 [17] - 学员需具备的基础知识包括:熟悉自动驾驶鸟瞰图感知、视觉Transformer、端到端等常见算法;掌握强化学习、扩散模型理论基础;具备一定的Python和PyTorch语言基础;熟悉mmdet3d算法框架;以及一定的高等数学、线性代数和矩阵论基础 [17]
2025年的博世,正在脱胎换骨......
自动驾驶之心· 2025-12-12 03:02
预研方面,我们看到了很多优秀的算法工作,其中不少自动驾驶之心都首发报道过。在这些已经公开的工作 中,有几位值得大家留意:R en Liu,Yao Yuhan,Sun Hao,Z hang frank, Jiang Anqing,Z hang Youjian 等 等。 整体上来看,博世在自驾以下几个方向投入较大: 此外还有一些闭环仿真方面的工作D GS(NeurIPS 2025)和视觉基础模型DINO-R1等。作为一家近140年的 老牌企业,博世的工程师文化非常浓厚。柱哥有幸和博世的几位技术专家交流过,更能切身感受到他们务实的 精神。相比去年,博世可谓成果颇丰,大方向上博世跟上了前沿的脚步并开始打造自己的特色。 本文精选了 博世汽车业务近期的优秀工作,为大家一窥其最新的研究图景。 PS. 推荐阅读 小米智驾正在迎头赶上 从地平线自动驾驶2025年的工作,我们看到了HSD的野心 2025年的理想还在不断突破,年度成果一览 作为国际Tier1巨头的博世,今年也被国内智驾的飞速发展卷到了。 根据最新的信息,博世汽车电子猛抓预研 和量产两条线。量产方面博世投入更多的资源落地一段式端到端,近期也招聘到不少技术专家加入。自 ...
人民大学提出的扩散语言模型,可能要改写历史...
自动驾驶之心· 2025-12-12 03:02
扩散语言模型的发展历程与核心观点 - 文章核心观点认为,扩散模型,特别是掩码扩散模型,是自回归模型之外一条有潜力通往语言智能的重要路径,其发展经历了从基础研究到规模化探索的两个阶段,并在近期展现出与自回归模型相媲美的潜力 [3][14][16] 第一阶段:2022-2024年底的基础研究阶段 - 此阶段扩散语言模型相对小众,研究主要分为连续扩散模型和离散扩散模型两条技术路线 [4][5] - **连续扩散模型**:早期尝试将基于高斯噪声的连续扩散模型直接应用于语言数据,或在其概率参数空间进行约束建模,但可扩展性存疑 [6][7] - **离散扩散模型**:掩码扩散模型被证明比均匀转移核的模型效果更好,逐渐成为研究重心 [8] - 关键理论突破包括证明了MDM模型中时间变量t是冗余的,可以将其从模型输入中移除,这一发现简化了模型结构,并建立了与BERT、MaskGIT等模型的联系 [9][10][11] 第二阶段:2024年底-2025年初的规模化阶段 - 研究重心从基础理论转向模型规模化扩展与能力验证 [14] - **学术界工作**: - 2024年10月,首个MDM的缩放定律研究完成,实验表明在GPT-2规模下,从头训练的MDM表现不亚于自回归模型 [16] - 2025年2月,发布了首个支持多轮对话的MDM模型LLaDA 8B,其能力可与LLaMA 3 8B媲美,并进行了全面开源 [16] - 后续涌现出更多在语言对齐、推理、多模态及加速技术方面的研究工作 [17] - **工业界工作**: - 继LLaDA开源后,出现了如Inception Lab的Mercury coder和谷歌的Gemini Diffusion等产品,但技术细节披露较少 [19] MDM与BERT/MaskGIT的关系及命名争议 - 从技术发展脉络看,MDM沿袭了扩散模型的概率建模思路,其历史可追溯至2015年,早于BERT [11] - 尽管通过理论简化(如移除时间变量t、使用固定掩码)后,MDM在形式上与BERT有相似之处,但二者本质区别在于MDM是一个完整的生成模型,具备定义联合概率分布和采样生成的能力,而BERT不是 [11][12] - 作者认为“扩散”是更合适的名称,因其能准确反映其生成模型的特质和技术发展路径 [12] LLaDA模型的贡献与认知价值 - LLaDA被视为一项标志性工作,其核心贡献在于改变了业界对扩散模型能否在语言任务上取得成功的认知,证明了这条技术路径的可行性 [21] - 该工作表明,最好的研究未必需要全新的技术,而是能够深化或转变人们对某个领域的理解和看法 [21] - 尽管存在如变长生成等尚未解决的挑战,但这恰恰意味着扩散语言模型领域仍有巨大的探索空间和机会 [21]
全部超越π0、π0.5!端到端全身VLA模型Lumo-1
自动驾驶之心· 2025-12-12 03:02
文章核心观点 - AI机器人公司星尘智能推出的端到端全身视觉-语言-动作模型Lumo-1,通过创新的三阶段训练架构,显著提升了机器人在复杂物理环境中的推理与操作能力,使其在多步骤长时序任务、精细操作及泛化能力上超越现有先进模型[9][11][12] 技术模型:Lumo-1的架构与训练 - Lumo-1是一个端到端全身VLA模型,旨在实现机器人的“心手合一”,通过具身化VLM、跨本体联合训练、推理-动作真机训练以及强化学习校准对齐等方式,将大模型“心智”转化为流畅的全身操作[9] - 训练采用三阶段架构:第一阶段为具身化VLM,在精选数据上预训练以获得空间理解等能力,在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型[12][17];第二阶段为跨本体联合训练,融合多机器人数据以强化指令跟随与空间推理[18];第三阶段为真机推理-动作训练,利用绳驱机器人Astribot S1的仿人示教轨迹学习真实世界的可执行动作模式[18] - 最后加入强化学习推理-行动对齐,通过多维度的奖励信号校准高级推理与低级动作之间的误差,使模型在任务成功率、动作合理性与泛化能力上显著超越仅模仿专家示范的表现[20][29] 核心能力与性能表现 - Lumo-1在多步骤长时序、精细灵巧操作、可泛化抓取放置三大类核心操作任务中,全部超越了π0、π0.5等先进模型[11][13] - 在未见过的物体、场景和指令等分布外情况,以及处理抽象、模糊、需扩展推理的指令时,优势更为明显[11][13] - 在7个多模态基准测试中的6个优于其骨干模型Qwen2.5-VL-7B,并超越了专门的具身模型RoboBrain-7B和Robix-7B,同时未损害核心多模态感知和推理能力[31] 关键技术拆解 - **动作空间建模**:通过空间动作分词器将连续动作轨迹压缩成可复用、组合的“动作单词库”,比FAST与分桶方法更紧凑和稳定,减少了数据收集引入的无关噪音[21] - **结构化推理**:将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使“为什么这样做”先于“怎么做”,并将视觉理解映射为路径点预测,实现从2D到3D控制的自然过渡[24][25] - **数据策略**:采用数据受限扩展定律验证,发现在固定模型规模下,数据多样性对泛化能力的影响远超数据重复次数,指明了注重数据质量的方向[30] 实际应用与泛化案例 - 机器人能够处理复杂、长时序的日常活动任务,如清扫、削皮、倾倒、刷洗、折叠等,这些任务可自然分解为多个子任务[23] - 展现出强大的抽象概念推理和情境理解能力,例如:理解“代表爱情的花”并放入花瓶;根据“KFC里的东西”推理出炸鸡、汉堡;根据“画海洋的工具”找到蓝色画笔[25] - 具备灵活的实时决策能力,例如在“把可乐放到盘子上”任务中,当左臂路径被加入障碍物时,能实时推理并切换为使用右臂[27] - 在真实环境中展现出惊人的泛化能力,如面对不同高度容器自动调整手臂姿态,以及识别从印刷体换成手写体的菜单并完成食材配对[31]
南大一篇84页的统一多模态理解和生成综述......
自动驾驶之心· 2025-12-11 03:35
文章核心观点 - 一篇由南京大学、中科院自动化所、北京大学等机构联合发表的综述《A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges》,首次系统性地定义了“统一基础模型(UFM)”概念,并构建了涵盖架构、技术、训练、应用的全景研究框架,旨在解决开源社区在多模态模型“理解”与“生成”能力协同上的混乱现状,为未来发展指明方向 [1][4] 统一基础模型(UFM)的演进历程 - UFM的演进被划分为三个阶段:第一阶段为“特定阶段”,理解与生成由完全独立的模型负责,如CLIP用于图像分类(理解),Stable Diffusion用于文生图(生成),两者无交互 [6][10] - 第二阶段为“融合阶段”,研究者将理解和生成模块整合到同一框架中,通过中间层实现协同,例如MiniGPT-5通过文本指令介导LLM生成描述再调用Stable Diffusion,NExT-GPT则通过特征介导直接控制生成模块 [7][10] - 第三阶段为“涌现阶段”,是UFM的终极目标,模型能像人类一样在理解和生成间无缝切换,以完成如“脚本驱动电影生成”等高度复杂的跨模态任务,但目前尚无模型能完全实现,仅部分模型在局部任务上展现出潜力 [8][9][10] 统一基础模型(UFM)的核心架构分类 - 架构根据“理解与生成模块的耦合度”分为三大类:外部服务集成建模、模块化联合建模和端到端统一建模 [11] - **外部服务集成建模**:LLM作为“任务调度员”,调用外部专门模型完成工作,代表模型有Visual ChatGPT、HuggingGPT、AudioGPT,优点是开发快、资源需求低,缺点是依赖外部模块质量、调用效率低且可能出现信息损耗 [12][13][17][18] - **模块化联合建模**:LLM作为核心处理理解任务,并通过“中介层”直接控制生成模块,细分为“提示介导”和“表示介导”两种方式,前者如EasyGen、GPT4Video,后者如Emu2、GILL、PUMA,优点是生成质量高、灵活性强,缺点是中介层可能成为瓶颈 [15][16][19] - **端到端统一建模**:模型在单一架构内同时处理理解和生成,是当前研究主流,根据生成机制又分为三类:自回归架构(如Emu3、LWM)、扩散架构(如Versatile Diffusion、UniDiffuser)、自回归-扩散混合架构(如Transfusion、BAGEL),优点是语义一致性强,能处理复杂跨模态任务,缺点是训练难度大、计算成本高 [20][21][24][25] 统一基础模型(UFM)的关键技术细节 - **编码策略**:核心是将多模态数据转化为模型能处理的表示,分为三类:连续编码(如CLIP ViT、VAE、Q-Former)、离散编码(如VQGAN、MoVQGAN、SEED Tokenizer)、混合编码(如级联编码的SEED、双分支编码的Janus) [22][23][26][27][30] - **解码策略**:是编码的逆过程,将模型输出转化为人类可理解的内容,同样对应三种形式:连续解码(依赖扩散模型,如Stable Diffusion,常加入“视觉先验”提升质量)、离散解码(依赖VQ-VAE类解码器,如VQGAN,部分模型会做“token压缩”以加速)、混合解码(如LaVIT、ILLUME+) [28][29][31] - **训练流程**:分为预训练、微调和数据处理三大环节 [30] - 预训练核心是搭建编码器-解码器、对齐模块、骨干网络三大模块,并优化多任务目标(如自回归的next-token预测损失、扩散的降噪损失) [32] - 微调包括任务监督微调(通用任务与多任务)和对齐微调(基于人类偏好,如DPO、GRPO),Emu3使用DPO微调后生成质量显著提升 [34][35] - 数据处理来源主要有四类:网络爬取(如LAION-5B的58亿图像-文本对)、公开数据集、私有数据、合成数据,筛选需经过属性、质量、安全三关,并格式化为“指令-输入-输出”结构 [36] 统一基础模型(UFM)的下游应用 - **机器人(具身智能)**:用于“视觉-语言-动作(VLA)”统一建模,例如LCB模型生成推理文本和动作序列,SEER用扩散模型预测目标图像以辅助机器人感知 [37][42] - **自动驾驶**:实现端到端的“感知-预测-规划”统一,例如DrivingGPT用自回归模型联合预测未来帧和车辆轨迹,Hermes用UFM预测未来LiDAR点云以提升决策可靠性 [37][42] - **世界模型**:构建物理真实的4D场景预测,例如Aether用扩散模型生成视频、深度、相机姿态,TesserAct能预测场景的表面法线、深度等细节以支持机器人交互 [37][42] - **医学**:轻量化适配医疗场景,例如LLM-CXR通过指令微调让LLM处理胸片分析并支持双向任务,HealthGPT扩展到CT、OCT等模态甚至能做跨模态生成 [37][42] - **视觉任务**:统一“感知-生成-3D重建”,例如LLMBind用MoE架构集成目标检测、分割等任务,ShapeLLM-Omni用3D VQVAE处理3D理解与生成 [37][42] 统一基础模型(UFM)的未来研究方向 - **建模架构**:需重点探索“自回归-扩散混合架构”,并优化MoE(混合专家)结构,让不同专家负责不同模态以提升协同效率 [40][42] - **统一分词器**:需开发能同时捕捉语义和细节的分词器,尤其是解决视频“长视频token爆炸”问题以提升时序建模能力 [40][42] - **训练策略**:需构建“模态交织数据”(如文本-图像-视频的连续序列),并设计能同时评估“理解准确性”和“生成质量”的统一奖励函数 [40][42] - **基准测试**:需设计专门评估“理解-生成协同”能力的基准,以真正衡量UFM的“统一能力” [40][42]
时隔一年DiffusionDrive升级到v2,创下了新纪录!
自动驾驶之心· 2025-12-11 03:35
核心观点 - 华科王兴刚教授团队提出DiffusionDriveV2,通过引入强化学习解决了其前代模型DiffusionDrive在端到端自动驾驶轨迹规划中面临的“多样性与持续高质量”两难困境 [1][3] - 该方法创新性地结合了锚点内GRPO、锚点间截断GRPO与尺度自适应乘法探索噪声,在保留多模态生成能力的同时,显著提升了轨迹的整体输出质量与安全性 [4][12] - 在NAVSIM v1和v2数据集的闭环评估中,DiffusionDriveV2结合ResNet-34主干网络取得了当前最优性能,PDMS分别达到91.2和85.5,创下新纪录 [4][33] 技术背景与问题 - 端到端自动驾驶(E2E-AD)直接从原始传感器输入学习驾驶策略,是当前发展浪潮 [5] - 传统单模态规划器仅回归单一轨迹,无法提供备选方案;基于选择的方法使用静态候选轨迹库,灵活性有限 [5] - 原始扩散模型应用于轨迹生成时面临模式崩溃(mode collapse)问题,倾向于生成保守且单一的轨迹,无法捕捉未来多样性 [5][13] - DiffusionDrive通过预定义轨迹锚点构建高斯混合模型先验,将生成空间划分为对应不同驾驶意图的子空间,从而促进多样化行为生成 [5][13] - 但DiffusionDrive依赖模仿学习,其训练目标仅优化与专家轨迹最接近的“正模式”,对占样本绝大多数的“负模式”缺乏约束,导致生成大量低质量甚至碰撞的轨迹,无法保证持续高质量 [8][17][18] DiffusionDriveV2核心方法 - **整体架构**:采用DiffusionDrive作为预训练的轨迹生成器进行冷启动,引入强化学习目标对所有生成模式施加约束并推动探索 [19][21] - **尺度自适应乘法探索噪声**:为解决轨迹近端与远端尺度不一致问题,采用纵向与横向乘法高斯噪声替代加法噪声,生成的探索路径更平滑,保留了轨迹连贯性 [24] - **锚点内GRPO**:为避免不同驾驶意图(如直行与转弯)间不当的优势比较导致模式崩溃,仅在每个锚点内部生成的轨迹变体组内执行GRPO策略更新 [9][24] - **锚点间截断GRPO**:为解决锚点内GRPO优势估计丧失全局可比性的问题,修改优势估计,将所有负优势截断为0,并对发生碰撞的轨迹施加-1的强惩罚,原则是“奖励相对改进,仅惩罚绝对失败” [27][28] - **模式选择器**:采用两阶段“粗到细”评分器,结合二元交叉熵损失和Margin-Rank损失,从多模态预测中选择最优轨迹 [29] 实验结果与性能 - **基准测试成绩**:在NAVSIM v1测试集上,PDMS达到91.2,相比DiffusionDrive提升3.1;在NAVSIM v2测试集上,EPDMS达到85.5 [4][33] - **模型效率**:仅使用2180万参数的ResNet-34主干网络,性能优于基于9690万参数V2-99主干网络的对比方法(如GoalFlow和Hydra-MDP) [33] - **多样性与质量权衡**: - 原始扩散方法(如TransfuserTD)多样性得分仅0.1,质量稳定但缺乏多样性 [37] - DiffusionDrive多样性得分高达42.3,但质量无法保证(PDMS@10为75.3) [37] - DiffusionDriveV2多样性得分30.3,在多样性与质量间实现最优权衡,其PDMS@1为94.9(提高上限),PDMS@10为84.4(提高下限) [37][38] - **消融实验验证**: - 乘法探索噪声优于加法噪声,PDMS从89.7提升至90.1 [40] - 使用锚点内GRPO使PDMS从89.2提升至90.1 [41] - 使用锚点间截断GRPO使PDMS从89.5提升至90.1 [42] 研究意义与贡献 - 据研究者所知,DiffusionDriveV2是首个直接面对并解决截断扩散模型在轨迹生成中“多样性与持续高质量”两难困境的工作 [12] - 是首个成功将GRPO方法迁移到基于锚点的截断扩散模型的工作 [12] - 该方法证明了强化学习的“探索-约束”范式能有效提高模型性能下限与上限,为端到端自动驾驶规划提供了新思路 [8][38]
世界模型和VLA正在逐渐走向融合统一
自动驾驶之心· 2025-12-11 03:35
文章核心观点 - 自动驾驶领域的技术路线正在融合,视觉语言模型与世界模型的结合是通往更强通用具身智能的关键方向 [3][4] - 自动驾驶之心知识星球是一个综合性的技术社区,旨在为行业人士提供学习、交流和求职的平台,已汇聚超过4000名成员 [10][28] 技术发展趋势 - 视觉语言模型与世界模型正走向融合统一,前者负责抽象推理,后者负责物理感知,结合是通往通用具身智能的答案 [3][4] - 学术界已有多个探索VLA与WM融合的工作,例如VLA-RFT、WorldVLA、Unified Vision-Language-Action Model以及DriveVLA-W0 [4] - 未来L4级自动驾驶的训练链路将是视觉语言模型、强化学习和世界模型三者的结合 [5] - 行业内的技术路线争论多与宣传口径有关,实际技术发展多有相互参考,未来结合形式仍需探索 [7] 知识星球社区概况 - 社区是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [10] - 社区成员超过4000人,目标在未来2年内发展到近万人规模 [10] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学、蔚小理、地平线、华为等国内外顶尖高校和头部公司 [28] - 社区整理了近40个技术方向的学习路线,并邀请了数十位活跃在一线的产业界和学术界嘉宾进行分享和答疑 [12][16] 社区内容与资源 - 社区汇总了超过40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台 [29] - 技术方向覆盖全面,包括但不限于:自动驾驶感知、规划控制、仿真、端到端学习、VLA、世界模型、多模态大模型、BEV感知、3D目标检测等 [17][29][36][39] - 提供“自动驾驶100问”系列实战内容,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制面试、BEV感知、相机标定等主题 [17] - 社区内部有专属学习视频教程,涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等主题 [98] - 不定期举办线上直播分享,目前已超过一百场,由行业专家分享最新研究成果 [101] 社区提供的服务与支持 - 为初学者提供全栈方向的学习课程和完备的入门技术栈路线图 [18][24] - 为从业者提供产业体系、项目方案以及最新的学术与工业应用进展 [26][32] - 建立了与多家自动驾驶公司的岗位内推机制,可协助成员投递简历 [22] - 社区内部有活跃的问答交流,成员可就技术入门、学习路线、就业跳槽、研究方向选择等各类问题进行提问并获得解答 [13][32][103]
工业界大佬带队!彻底搞懂自动驾驶世界模型...
自动驾驶之心· 2025-12-11 03:35
课程核心定位 - 课程为自动驾驶领域首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,并助力学员深入理解端到端自动驾驶 [11] - 课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等前沿工作 [1] - 课程由工业界专家授课,内容基于讲师丰富的端到端算法研发和量产交付实战经验 [3][6] 课程内容与结构 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同技术流派(如纯仿真、仿真+规划、生成传感器输入等)及其在业界解决的问题与所处环节,并介绍相关数据集与评测 [6] - **第二章:世界模型背景知识** 讲解世界模型的基础技术栈,包括场景表征、Transformer、BEV感知等,这些内容是当前世界模型求职面试频率最高的技术关键词 [6][7] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细讲解李飞飞团队Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [7] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上海交大CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战 [8] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,讲解清华OccWorld、复旦OccLLaMA、华科ICCV'25的HERMES、西交II-World等三篇论文,并进行一个项目实战,此类方法可扩展至自车轨迹规划以实现端到端 [9][13] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用现状、行业痛点、期望解决的问题,以及如何准备相关岗位面试,内容为公司真正关注的经验积累 [10] 课程技术覆盖与学后收获 - **关键技术覆盖** 课程涵盖Transformer、视觉Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等生成式模型 [12] - **预期能力提升** 学员学完后预期能达到相当于1年左右经验的世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,并对BEV感知、多模态大模型等关键技术有更深刻理解 [14] - **实践成果** 学员将能够复现II-World、OpenDWM等主流算法框架,并将所学应用到项目中,真正搞懂如何设计自己的世界模型,对实习、校招、社招均有助益 [14] 课程安排与面向人群 - **课程进度** 课程于1月1日开课,预计两个半月结课,采用离线视频教学,配合VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [15] - **章节解锁时间** 第一章于12月10日解锁,后续章节在1月1日至3月1日期间陆续解锁 [16] - **学员基础要求** 学员需自备算力在4090及以上的GPU,具备一定的自动驾驶领域基础,熟悉Transformer大模型、扩散模型、BEV感知等基本概念,并具备概率论、线性代数及Python和PyTorch编程基础 [14]