Workflow
自动驾驶VLA
icon
搜索文档
死磕技术的自动驾驶黄埔军校,即将4500人了
自动驾驶之心· 2025-12-21 11:54
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 名额有限,仅限前「5名」 最近一个月,柱哥在星球内更新了很多最新的行业动态: 同时,还有很多的答疑解惑: Waymo最新的基座模型分享,快慢双系统+数据飞轮; 2025地平线技术生态大会上,苏箐关于自驾的一些insights; 自动驾驶世界模型论文与代码汇总; 英伟达2025年技术图鉴,自驾、具身、大模型全面开花; 理想披露了的最新技术信息,从数据闭环到训练闭环。 近期柱哥也会邀请嘉宾在星球内部和大家聊一聊最近的一些技术进展,欢迎大家加入自动驾驶之心知识星球。 我们准备了大额新人优惠...... 秋招/社招offer建议; 传统规控实现给端到端大模型兜底的思路; 动态行人的场景高斯重建的方法; 40个问题深度解析自动驾驶领域vla+wm的重磅工作:DriveVLA-W0; BEV融合如何能够提升盲区(很近范围)内3D Box的边界准确程度; 小鹏第二代VLA的延展讨论; 对于很多想入门的同学来说,试错成本有点高。没时间和缺乏完整的体系是最大问题,这也容易导致行业壁垒 越来越高,如果想要卷赢那就更加困难了。 扛 ...
世界模型和VLA正在逐渐走向融合统一
自动驾驶之心· 2025-12-11 03:35
文章核心观点 - 自动驾驶领域的技术路线正在融合,视觉语言模型与世界模型的结合是通往更强通用具身智能的关键方向 [3][4] - 自动驾驶之心知识星球是一个综合性的技术社区,旨在为行业人士提供学习、交流和求职的平台,已汇聚超过4000名成员 [10][28] 技术发展趋势 - 视觉语言模型与世界模型正走向融合统一,前者负责抽象推理,后者负责物理感知,结合是通往通用具身智能的答案 [3][4] - 学术界已有多个探索VLA与WM融合的工作,例如VLA-RFT、WorldVLA、Unified Vision-Language-Action Model以及DriveVLA-W0 [4] - 未来L4级自动驾驶的训练链路将是视觉语言模型、强化学习和世界模型三者的结合 [5] - 行业内的技术路线争论多与宣传口径有关,实际技术发展多有相互参考,未来结合形式仍需探索 [7] 知识星球社区概况 - 社区是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [10] - 社区成员超过4000人,目标在未来2年内发展到近万人规模 [10] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学、蔚小理、地平线、华为等国内外顶尖高校和头部公司 [28] - 社区整理了近40个技术方向的学习路线,并邀请了数十位活跃在一线的产业界和学术界嘉宾进行分享和答疑 [12][16] 社区内容与资源 - 社区汇总了超过40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台 [29] - 技术方向覆盖全面,包括但不限于:自动驾驶感知、规划控制、仿真、端到端学习、VLA、世界模型、多模态大模型、BEV感知、3D目标检测等 [17][29][36][39] - 提供“自动驾驶100问”系列实战内容,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制面试、BEV感知、相机标定等主题 [17] - 社区内部有专属学习视频教程,涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等主题 [98] - 不定期举办线上直播分享,目前已超过一百场,由行业专家分享最新研究成果 [101] 社区提供的服务与支持 - 为初学者提供全栈方向的学习课程和完备的入门技术栈路线图 [18][24] - 为从业者提供产业体系、项目方案以及最新的学术与工业应用进展 [26][32] - 建立了与多家自动驾驶公司的岗位内推机制,可协助成员投递简历 [22] - 社区内部有活跃的问答交流,成员可就技术入门、学习路线、就业跳槽、研究方向选择等各类问题进行提问并获得解答 [13][32][103]
自动驾驶VLA全栈学习路线图
自动驾驶之心· 2025-12-09 19:00
而传统的BEV感知、车道线、Occupancy等方向相对成熟了,无论是学术界或工业界关注度都在逐渐下降。目前 自动驾驶VLA是各家企业急需攻克的方 案。主流的自动驾驶企业,无论是智驾方案供应商还是车企,都在发力自动驾驶VLA的自研。 我们花了三个月的时间设计了一套自动驾驶VLA的学习路 线图,从原理到实战细致展开。 自动驾驶VLA涉及的核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等等。最前沿的算法包括CoT、MoE、RAG、强化学 习。通过学习VLA,可以让自己对自动驾驶的感知系统有更深刻的认知。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 端到端之后,学术界和工业界聚焦的方向是什么?无疑是VLA。VLA提供了类人思考的能力,把车辆决策的过程通过思维链的形式展现出来,从而提 供 更可靠更安全的自动驾驶能力。 自动驾驶VLA目前可以分为模块化VLA、一体化VLA和推理增强VLA三个子领域。 为此我们联合 清华大学的教研团队 开展了这门《自动驾驶VLA与大模型实战课程》!课程包含自动驾驶VLA三个子领域前沿算法的细致讲解,并会 ...
世界模型能够从根本上解决VLA系统对数据的依赖,是伪命题...
自动驾驶之心· 2025-11-22 02:01
自动驾驶技术路线分析 - 2025年自动驾驶赛道分裂为两大阵营:小鹏、理想、元戎启行押注VLA路线,而华为、蔚来则力推世界行为模型路线[2] - 世界行为模型被视为能真正实现自动驾驶的终极方案,但其本质被认为是套壳的数据依赖论[2] - VLA依赖海量数据训练得到的VLM进一步扩展Action能力,工业界最得天独厚的优势就是有海量的数据[2] - 在普通场景已达到99.9%能力的情况下,长尾场景成为决定胜负的关键[2] - 世界模型采用生成式方法理论上可无限扩展corner case,但生成前提是需要海量真实数据训练物理规则认知框架[2] 技术路线数据依赖本质 - 两条技术路线都建立在"数据决定上限"的底层逻辑上[3] - VLA依赖真实场景的多模态数据训练Reasoning能力[3] - 世界模型需要"真实数据打底+仿真数据扩量"的双重buff,其泛化能力本质是对数据多样性的迁移[3] - 行业陷入混淆"数据形式"与"数据本质"的误区,世界模型想利用仿真数据减少对真实长尾数据的依赖[3] - 在真正的人工智能到来前,数据永远是自动驾驶的核心竞争力[3] 自动驾驶技术社区资源 - 自动驾驶之心知识星球已超过4000人,期望未来2年内做到近万人规模[8][9] - 社区集视频+图文+学习路线+问答+求职交流为一体,是综合类自动驾驶社区[8] - 社区内部梳理了近40+技术路线,涵盖VLA benchmark、综述和学习入门路线[9] - 社区汇总了近40+开源项目、近60+自动驾驶相关数据集、行业主流自驾仿真平台[19] - 社区成员来自上海交大、北京大学、CMU、清华大学等知名高校,以及蔚小理、地平线、华为等头部公司[18] 技术学习体系 - 社区提供自动驾驶感知学习路线、自动驾驶仿真学习路线、自动驾驶规划控制学习路线[19] - 涵盖端到端学习路线、3DGS算法原理、基于搜索的规划、VLA学习路线等技术方向[19] - 提供全栈方向学习课程,适合0基础入门学习者[12] - 社区内部会员独享七大福利视频教程,涵盖世界模型、自动驾驶大模型、Transformer等技术领域[87] - 已开展超过一百场专业技术直播,邀请行业大佬分享最新研究成果[90] 技术细分领域覆盖 - 社区详细梳理了3D目标检测、BEV感知、世界模型、闭环仿真3DGS、自动驾驶大模型等技术领域[35] - 针对端到端自动驾驶,梳理了一段式端到端、二段式端到端、量产方案、VLA相关算法等内容[39] - 涵盖视觉语言模型最新综述、开源数据集、思维链推理、量产方案等前沿领域[45] - 对自动驾驶VLA领域进行详细梳理,包括最新综述、VLA开源数据集、模块化VLA等内容[47] - 包含规划控制基础算法、决策规划框架和常用控制算法等传统规划内容[49]
刚做了一份VLA学习路线图,面向初学者......
自动驾驶之心· 2025-11-07 16:04
自动驾驶VLA行业趋势 - 自动驾驶VLA是端到端技术之后学术界和工业界聚焦的核心方向,提供了类人思考能力并通过思维链形式展现车辆决策过程,旨在实现更可靠安全的自动驾驶能力 [1] - 传统BEV感知、车道线、Occupancy等方向已相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的主流方案 [4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA技术分类 - 自动驾驶VLA目前可分为三个子领域:模块化VLA、一体化VLA和推理增强VLA [1] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息 [17] - 一体化VLA实现感知→控制的端到端映射,通过单次前向传播直接将传感器输入映射为控制动作,消除模块间耦合延迟 [17] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释 [18] 自动驾驶VLA核心技术栈 - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等 [7] - 涉及最前沿算法包括CoT、MoE、RAG、强化学习等 [7] - 视觉感知涉及BEV感知/动静态检测/OCC及轨迹预测 [18] - 语言模型涉及序列建模/Transformer及vision-language模态对齐算法 [18] - 动作模块包括判别式解码器和生成式解码器如何输出action [18] 行业代表性算法与模型 - 模块化&一体化VLA领域重点讲解华科和小米最新提出的ReCogDrive,其包含预训练、模仿学习训练和强化学习训练三个阶段 [17] - 推理增强VLA领域重点讲解华科&小米ICCV2025中稿的ORION、慕尼黑工大的OpenDriveVLA、上海交通大学的DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等算法 [18][19][24] - 其他重要算法包括阿里&西交的FutureSightDrive、UCLA的AutoVLA、中科院和华为诺亚的Drive-R1等 [24] 行业实践与部署 - 以Qwen 2.5VL-72为例,讲解如何使用transformers或ms-swift本地部署大模型 [15] - 第五章配套实战选取清华AIR和博世提出的Impromptu VLA,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [20] - 课程大作业要求基于ms-swift框架,自定义数据集和加载模型,开启训练任务并进行微调 [21]
今日开课!清华团队带队梳理自动驾驶VLA学习路线:算法+实践
自动驾驶之心· 2025-10-19 23:32
自动驾驶行业技术趋势 - 行业技术焦点已从传统的BEV感知、车道线、Occupancy等相对成熟的方向转向自动驾驶VLA [4] - VLA被视为提供类人思考能力、通过思维链形式展现车辆决策过程的关键技术,旨在实现更可靠安全的自动驾驶 [1] - 自动驾驶VLA目前主要分为模块化VLA、一体化VLA和推理增强VLA三个子领域 [1] 自动驾驶VLA核心技术要素 - 核心技术涵盖视觉感知、大语言模型、Action建模、大模型部署及数据集制作等 [7] - 涉及的最前沿算法包括CoT、MoE、RAG以及强化学习 [7] - 行业主流企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA课程核心内容 - 课程系统讲解自动驾驶VLA三个子领域的前沿算法,并配备两个实战及一个课程大作业 [8] - 课程大纲包含VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及综合大作业 [13][15][16][17][18][21] - 课程设计从原理到实战,包含对开源BenchMark、评测指标及数据集制作专题的详细讲解 [14][15] 自动驾驶VLA算法发展路径 - VLA发展路径显示,Language从被动的场景描述演变为模块化架构中的主动规划组件 [17] - 模块化VLA强调多阶段pipeline,而一体化VLA实现感知到控制的端到端映射 [17] - 推理增强VLA的趋势是向长思维链推理、记忆和交互发展,将VLM/LLM置于控制中心 [18] 行业实践与前沿算法案例 - 课程实战部分选取了华科与小米最新提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等算法进行代码学习 [17][20] - 重点讲解的算法案例包括DriveGPT4、TS-VLM、ORION、DriveMoE、DiffVLA、S4-Driver等业界前沿工作 [16][18][19][24] - 算法训练涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式 [17]
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-10-10 23:32
自动驾驶VLA行业趋势 - 端到端技术之后,视觉语言动作模型成为学术界和工业界聚焦的核心方向,其提供类人思考能力并通过思维链形式展现车辆决策过程,以实现更可靠安全的自动驾驶能力[1] - 自动驾驶VLA目前可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 传统BEV感知、车道线、Occupancy等方向相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案,主流自动驾驶企业及智驾方案供应商均在发力自研[4] 自动驾驶VLA技术核心 - 技术涉及视觉感知、大语言模型、Action建模、大模型部署及数据集制作等核心内容[6] - 最前沿算法包括思维链、混合专家模型、检索增强生成及强化学习等[6] - 模块化VLA强调多阶段流程,语言模型从被动场景描述演变为主动规划组件[16] - 一体化VLA直接连接动作解码器,实现感知到控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA趋势由解释转向长思维链推理、记忆和交互,新增推理模块并同步输出控制信号和自然语言解释[17] 行业应用与课程设计 - 课程由清华大学教研团队联合开展,包含自动驾驶VLA三个子领域前沿算法细致讲解及两个实战加一个课程大作业[6] - 课程大纲涵盖VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及大作业共六章[12][13][14][15][16][17][20] - 课程选取华科与小米提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等主流算法进行实战代码学习[16][19] - 课程进度安排自10月20日开始,预计两个半月结课,采用离线视频教学配合VIP群答疑及三次线上答疑模式[23]
清华教研团队!两个月从零搭建一套自己的自动驾驶VLA模型
自动驾驶之心· 2025-10-08 09:04
自动驾驶VLA技术趋势 - 端到端技术后,学术界和工业界聚焦于VLA,其提供类人思考能力,通过思维链展现车辆决策过程,以实现更可靠安全的自动驾驶[1] - 自动驾驶VLA可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 该技术是各家企业急需攻克的方案,主流自动驾驶企业及车企均在发力自研[4] 课程核心内容与结构 - 课程由清华大学教研团队联合推出,包含自动驾驶VLA三个子领域前沿算法讲解,并配备两个实战及一个课程大作业[6] - 课程大纲涵盖六章:VLA算法介绍、算法基础、VLM作为解释器、模块化&一体化VLA、推理增强VLA以及大作业[9][11][13][14][15][16][19] - 课程进度安排为10月20日开课,预计两个半月结课,采用离线视频教学结合VIP群答疑及三次线上答疑的形式[22] 技术覆盖与实战重点 - 课程核心内容包括视觉感知、大语言模型、Action建模、大模型部署及数据集制作,涉及CoT、MoE、RAG、强化学习等前沿算法[6][13] - 模块化VLA强调多阶段pipeline,一体化VLA实现感知到控制的端到端映射[15] - 推理增强VLA新增推理模块,支持长时序规划、因果解释及多模态交互,重点讲解ORION、OpenDriveVLA、DriveMoE等算法[16][17][22] - 实战部分选取ReCogDrive和Impromptu VLA,涵盖预训练、模仿学习、强化学习及基于Qwen2.5 VL的数据集制作与训练[15][18] 讲师背景与学员要求 - 讲师团队包括清华大学硕士生及QS30高校博士,在ICCV、IROS、EMNLP等顶级会议发表多篇论文,并拥有自动驾驶与大模型研发实战经验[7][8] - 学员需自备GPU,推荐算力在4090及以上,并具备自动驾驶领域基础、Transformer大模型及Python/PyTorch语言基础[23] - 课程目标为使学员彻底理解自动驾驶VLA当前进展,掌握三大子领域核心技术,并能够复现主流算法以应用于科研及工程落地[21][23]
小鹏&理想全力攻坚的VLA路线,到底都有哪些研究方向?
自动驾驶之心· 2025-09-17 23:33
技术趋势分析 - 端到端与视觉语言动作模型标志着智能驾驶从规则驱动向数据驱动的根本性转变 [1] - 端到端模型虽能打通上下游视角,但在处理复杂困难场景时仍受限制,量产模型迭代陷入无限处理极端案例的循环 [1] - 视觉语言动作模型可视为一种更直白干净的端到端方法,取消了复杂的3D感知任务,凭借更强大的通用泛化能力为解决极端案例提供了可能性 [1] - 自动驾驶视觉语言动作模型技术栈尚未收敛,一系列算法如雨后春笋般出现 [2] 课程核心价值 - 课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员短时间内掌握核心技术栈 [3] - 课程帮助学员梳理自动驾驶视觉语言动作模型的研究发展脉络,掌握领域核心框架,学会将论文分类并提取创新点 [4] - 课程配有实战环节,完成从理论到实践的完整闭环 [5] - 课程涵盖视觉感知、语言模块、动作模块及大模型前沿技术,包括检索增强生成、思维链、强化学习、混合专家模型等广泛技术栈 [2] 课程内容架构 - 第一章概述自动驾驶视觉语言动作模型算法概念及发展历史,介绍开源基准和常见评测指标 [9][10] - 第二章讲解视觉、语言、动作三个模块的基础知识,以及大模型与自动驾驶视觉语言动作模型的结合,包括以Qwen 2.5VL-72为例的开源大模型部署使用 [11][12] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典及最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA等算法的动机、网络结构及核心 [13][14] - 第四章聚焦模块化与一体化视觉语言动作模型,讲解视觉感知、语言模型、动作模块的基础知识及检索增强生成、思维链、监督微调、强化学习、混合专家模型等技术 [15][16] - 第四章实战代码选取华科和小米最新提出的ReCogDrive,涵盖预训练、模仿学习训练和强化学习训练三个阶段的主流范式 [17] - 第五章聚焦推理增强视觉语言动作模型子领域,讲解长思维链推理、记忆和交互等趋势 [18][19] - 第五章实战代码选取清华AIR和博世提出的Impromptu视觉语言动作模型,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [19] - 第六章大作业基于ms-swift框架,从网络构建开始,自定义数据集和加载模型,开启训练任务并进行微调 [21] 学术前沿覆盖 - 课程覆盖慕尼黑工大提出的OpenDriveVLA、上海交通大学提出的DriveMoE、博世和清华AIR提出的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等前沿算法 [24] - 课程涵盖华科&小米 ICCV2025中稿的ORION、阿里&西交团队提出的FutureSightDrive、UCLA提出的AutoVLA、中科院和华为诺亚提出的Drive-R1等最新研究 [25] 教学团队与安排 - 讲师团队包括清华大学硕士生、QS30高校博士在读研究人员,在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表多篇论文,具备多模态感知、自动驾驶视觉语言动作模型、大模型Agent等前沿算法预研经验 [22] - 课程于10月20日开课,预计两个半月结课,采用离线视频教学结合VIP群内答疑及三次线上答疑的模式 [27]
决定了!还是冲击自动驾驶算法
自动驾驶之心· 2025-08-30 04:03
自动驾驶行业人才需求与就业趋势 - 自动驾驶算法岗位薪资在AI行业中属于顶薪水平 特别是端到端、VLA和强化学习等方向[1] - 行业存在大量人才需求 主机厂和Tier 1企业积极招聘优秀人才攻坚L3/L4级别量产难题[1] - 具身智能领域热度上升 部分从业者转向机器人赛道 但自动驾驶行业仍需更多专业人才[1] 自动驾驶之心知识社区生态 - 社区成立三年 已发展成集视频、图文、学习路线、问答和求职交流的综合型平台[1] - 当前社区规模超过4000人 目标两年内达到近万人规模[1] - 社区提供40+技术路线梳理 涵盖端到端自动驾驶、VLA benchmark等前沿方向[2][5] - 邀请数十位产业界和学术界一线专家入驻 包括经常出现在顶会和访谈中的行业领袖[2] 技术研究方向与资源汇总 - 汇总近40个自动驾驶技术方向 包括BEV感知、扩散模型、世界模型等核心领域[5][13] - 整理近60个自动驾驶数据集 包含多模态大模型预训练数据集和VLA微调专用数据集[13][30] - 提供100问系列专业解答 包括TensorRT部署、毫米波雷达融合等工程实践问题[6] - 开源项目覆盖3D目标检测、闭环仿真3DGS、自动驾驶大模型等关键领域[29] 行业培训与学术交流 - 开设全栈方向学习课程 专门针对0基础入门者设计[7][9] - 举办超过100场专业技术直播 邀请顶尖高校和企业专家分享最新研究成果[54] - 直播内容涵盖V2X技术发展、神经符号系统、3D检测基础模型等前沿话题[54] - 与国内外300多家机构和自动驾驶公司建立交流机制[66] 企业合作与就业服务 - 与多家自动驾驶公司建立内推机制 直接对接企业招聘需求[9] - 社区成员来自蔚小理、地平线、华为、大疆等头部企业[13] - 覆盖高校包括上海交大、清华大学、CMU、ETH等国内外知名院校[13] - 提供职业规划咨询 帮助解决offer选择、研究方向选择等实际问题[59][61] 技术发展前沿动态 - 端到端自动驾驶成为学术界和工业界研究热点 涵盖一段式/二段式量产方案[31] - 2025年VLA(视觉语言动作模型)成为最火方向 社区详细梳理最新综述和开源数据集[36] - 世界模型技术汇总涵盖技术前沿和业界应用 成为当前研究重点[33] - 3DGS与NeRF技术应用于自动驾驶场景重建与闭环仿真[32] 行业发展趋势分析 - 2025年上半年自动驾驶面临量产挑战 学术界关注技术方向转型[64] - 端到端范式在学术界呈现多样化发展 但数据集迭代速度需跟上技术发展[63] - 无图NOA量产方案依赖在线高精地图技术 成为工业界关注重点[43] - 主流量产方案仍采用多模块融合方式 需要5个以上模型协同工作[61]