Workflow
自动驾驶VLA
icon
搜索文档
端到端VLA的入门进阶和求职,我们配备了完整的学习路线图!
自动驾驶之心· 2025-12-18 00:06
行业人才需求与趋势 - 近期多家行业中游厂商积极寻求端到端自动驾驶和视觉语言动作模型方向的技术人才 计划在明年投入更多资源进行技术落地 [2] - 对于经验丰富的专家级人才 行业提供的薪酬水平普遍在百万年薪起步 显示出市场对高端技术人才的强烈需求和竞争 [2] 行业培训课程概况 - 为应对工业界明确的技术需求 行业推出了多个聚焦于量产落地的实战培训课程 包括《面向量产的端到端实战小班课》、《端到端与VLA自动驾驶小班课》和《自动驾驶VLA和大模型实战课程》旨在打通从入门、进阶到求职的全链条 [4] - 课程由来自顶尖企业和学术机构的专家授课 师资背景强大 均拥有C9及QS排名前列高校的学历 并在国际顶级会议发表多篇论文 且具备将前沿算法成功量产落地的实战经验 [6][9][14][15] 端到端自动驾驶量产课程 - 该课程聚焦于端到端自动驾驶的量产落地 详细讲解导航信息应用、强化学习优化、Diffusion和自回归模型的量产经验以及时空联合规划兜底等核心模块 [4] - 课程设计了七大落地实战项目 目标人群为已经从事端到端自动驾驶相关工作并希望进阶加薪的从业者 [4] 端到端与VLA宏观技术课程 - 该课程从宏观领域梳理端到端自动驾驶 涵盖一段式/两段式方向的重点算法和理论基础 详细讲解BEV感知、大语言模型、扩散模型和强化学习 [7] - 课程包含两大实战项目 分别是基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [7] 自动驾驶VLA与大模型实战课程 - 该课程由学术界专家带队 全面梳理视觉语言动作模型领域 涵盖从视觉语言模型作为解释器到模块化VLA、一体化VLA以及当前主流的推理增强VLA三大方向 [12] - 课程配套详细的理论基础梳理 包括视觉、语言、动作三大模块以及强化学习和扩散模型等 并设有大作业章节指导学员从零搭建自己的视觉语言动作模型及数据集 [12] - 课程对学员有明确的先决条件要求 包括需要自备算力在4090及以上的GPU、具备自动驾驶领域基础、了解Transformer大模型等技术的基本概念、拥有一定的数学和编程基础 [11]
自动驾驶VLA全栈学习路线图
自动驾驶之心· 2025-12-09 19:00
而传统的BEV感知、车道线、Occupancy等方向相对成熟了,无论是学术界或工业界关注度都在逐渐下降。目前 自动驾驶VLA是各家企业急需攻克的方 案。主流的自动驾驶企业,无论是智驾方案供应商还是车企,都在发力自动驾驶VLA的自研。 我们花了三个月的时间设计了一套自动驾驶VLA的学习路 线图,从原理到实战细致展开。 自动驾驶VLA涉及的核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等等。最前沿的算法包括CoT、MoE、RAG、强化学 习。通过学习VLA,可以让自己对自动驾驶的感知系统有更深刻的认知。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 端到端之后,学术界和工业界聚焦的方向是什么?无疑是VLA。VLA提供了类人思考的能力,把车辆决策的过程通过思维链的形式展现出来,从而提 供 更可靠更安全的自动驾驶能力。 自动驾驶VLA目前可以分为模块化VLA、一体化VLA和推理增强VLA三个子领域。 为此我们联合 清华大学的教研团队 开展了这门《自动驾驶VLA与大模型实战课程》!课程包含自动驾驶VLA三个子领域前沿算法的细致讲解,并会 ...
刚做了一份VLA学习路线图,面向初学者......
自动驾驶之心· 2025-11-07 16:04
自动驾驶VLA行业趋势 - 自动驾驶VLA是端到端技术之后学术界和工业界聚焦的核心方向,提供了类人思考能力并通过思维链形式展现车辆决策过程,旨在实现更可靠安全的自动驾驶能力 [1] - 传统BEV感知、车道线、Occupancy等方向已相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的主流方案 [4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA技术分类 - 自动驾驶VLA目前可分为三个子领域:模块化VLA、一体化VLA和推理增强VLA [1] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息 [17] - 一体化VLA实现感知→控制的端到端映射,通过单次前向传播直接将传感器输入映射为控制动作,消除模块间耦合延迟 [17] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释 [18] 自动驾驶VLA核心技术栈 - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等 [7] - 涉及最前沿算法包括CoT、MoE、RAG、强化学习等 [7] - 视觉感知涉及BEV感知/动静态检测/OCC及轨迹预测 [18] - 语言模型涉及序列建模/Transformer及vision-language模态对齐算法 [18] - 动作模块包括判别式解码器和生成式解码器如何输出action [18] 行业代表性算法与模型 - 模块化&一体化VLA领域重点讲解华科和小米最新提出的ReCogDrive,其包含预训练、模仿学习训练和强化学习训练三个阶段 [17] - 推理增强VLA领域重点讲解华科&小米ICCV2025中稿的ORION、慕尼黑工大的OpenDriveVLA、上海交通大学的DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等算法 [18][19][24] - 其他重要算法包括阿里&西交的FutureSightDrive、UCLA的AutoVLA、中科院和华为诺亚的Drive-R1等 [24] 行业实践与部署 - 以Qwen 2.5VL-72为例,讲解如何使用transformers或ms-swift本地部署大模型 [15] - 第五章配套实战选取清华AIR和博世提出的Impromptu VLA,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [20] - 课程大作业要求基于ms-swift框架,自定义数据集和加载模型,开启训练任务并进行微调 [21]
跨行转入自动驾驶大厂的经验分享
自动驾驶之心· 2025-11-04 00:03
文章核心观点 - 文章通过分享苹果姐的职业发展案例,强调在自动驾驶行业成功需要抓住机会并持续学习转型 [1] - 自动驾驶之心知识星球是一个综合性技术社区,提供超过40个技术方向的学习资源和行业交流平台 [4][7][10] - 社区目前拥有超过4000名成员,目标在未来2年内达到近万人规模 [4] 社区资源与内容 - 社区汇总了近40+技术路线,涵盖BEV感知、端到端自动驾驶、多传感器融合等核心领域 [7][10][17] - 提供近60+自动驾驶数据集、行业主流仿真平台和各种技术学习路线 [16] - 社区内部梳理了自动驾驶100问系列,包括TensorRT模型部署、毫米波雷达融合等实用问题 [10] - 拥有超过100场专业技术直播,邀请学术界和工业界大佬分享最新研究成果 [91] 学习与课程体系 - 社区提供七大福利视频教程,涵盖世界模型、自动驾驶大模型、3D目标检测等热门方向 [89] - 原创直播课程包括感知融合、多传感器标定、SLAM与高精地图等8大系列 [11] - 为入门者提供全栈方向学习课程,适合0基础小白系统学习 [10][11] 行业连接与就业支持 - 社区成员来自上海交大、北京大学、CMU等知名高校和蔚小理、华为、英伟达等头部企业 [16] - 与多家自动驾驶公司建立内推机制,提供大模型-端到端算法工程师等热门岗位推荐 [12] - 社区定期分享行业机会挖掘、投资与项目对接信息 [21] 技术领域覆盖 - 重点技术方向包括:VLA学习路线、多模态大模型、Occupancy Network、3DGS与NeRF等 [17][38][41][48] - 详细梳理了端到端自动驾驶的一段式/二段式方案、量产方案和VLA相关算法 [38][48] - 覆盖BEV感知、3D目标检测、轨迹预测、规划控制等自动驾驶核心技术栈 [17][50][54][56]
给自动驾驶业内新人的一些建议
自动驾驶之心· 2025-10-29 00:04
社区概况与定位 - 社区名称为“自动驾驶之心知识星球”,是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [1][3] - 社区已运营三年,当前成员规模超过4000人,并计划在未来2年内发展到近万人规模 [1][3] - 社区旨在为初学者和进阶者提供技术分享与交流平台,解决行业壁垒高、试错成本高、缺乏完整学习体系等问题 [1][3] 社区资源与技术覆盖 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,涵盖感知、规划控制、仿真、端到端驾驶等多个领域 [5][6][14][15] - 资源形式包括近40个开源项目汇总、近60个自动驾驶相关数据集、行业主流仿真平台以及各类技术学习路线 [14] - 提供原创直播课程,内容覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划、数据工程、自动驾驶仿真及端到端与大模型技术等9大系列 [9] 成员构成与合作伙伴 - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、英伟达、百度等自动驾驶头部公司 [14] - 社区与多家自动驾驶公司建立了岗位内推机制,可帮助成员简历直达心仪公司 [10] - 社区定期邀请学术界与工业界大佬进行直播分享,目前已举办超过一百场专业技术直播 [84] 具体技术内容与问答 - 社区日常讨论问题包括端到端自动驾驶入门、VLA学习路线、多模态大模型数据集、多传感器融合就业前景、3DGS与闭环仿真结合等前沿话题 [7][18] - 技术资料库详细梳理了3D目标检测、BEV感知、扩散模型、世界模型、视觉语言模型、自动驾驶VLA等热点领域的最新综述、方法汇总与开源数据集 [20][37][39][43][45] - 提供“自动驾驶100问”系列实战资料,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定等工程化主题 [8]
做了几期线上交流,我发现大家还是太迷茫
自动驾驶之心· 2025-10-24 00:04
社区概况与规模 - 社区名称为“自动驾驶之心知识星球”,是一个专注于自动驾驶领域的综合类技术社区 [1][3] - 社区集视频、图文、学习路线、问答、求职交流为一体,已运营三年之久 [1][3] - 目前社区成员数量已超过4000人,公司目标是在未来2年内将规模扩张至近万人 [1][3] 社区服务与资源 - 社区联合了众多学术界和工业界专家,为成员提供技术分享和交流渠道 [1][3] - 内部梳理了超过40种自动驾驶技术路线,帮助成员缩短信息检索时间 [5][6] - 提供近40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台的汇总资料 [14] - 建立了与多家自动驾驶公司的岗位内推机制,可帮助成员简历直达心仪公司 [10] 技术内容覆盖范围 - 社区内容全面覆盖自动驾驶感知、规划控制、仿真、端到端学习等核心领域 [14][15] - 具体技术方向包括BEV感知、多传感器融合、3D目标检测、VLA、世界模型、扩散模型等近40个细分领域 [8][14][15][20] - 提供“自动驾驶100问”系列实战内容,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等工程化主题 [8] 学习与交流活动 - 定期举办线上交流活动,单场活动参与人数超过100人 [1] - 社区内部经常解答各类实用技术问题,例如端到端入门、VLA学习路线等 [5][18] - 不定期邀请一线学术界和工业界大佬进行直播分享,目前直播场次已超过一百场 [84] - 成员可在社区内自由提问,获得关于工作选择、研究方向等问题的解答 [87]
今日开课!清华团队带队梳理自动驾驶VLA学习路线:算法+实践
自动驾驶之心· 2025-10-19 23:32
自动驾驶行业技术趋势 - 行业技术焦点已从传统的BEV感知、车道线、Occupancy等相对成熟的方向转向自动驾驶VLA [4] - VLA被视为提供类人思考能力、通过思维链形式展现车辆决策过程的关键技术,旨在实现更可靠安全的自动驾驶 [1] - 自动驾驶VLA目前主要分为模块化VLA、一体化VLA和推理增强VLA三个子领域 [1] 自动驾驶VLA核心技术要素 - 核心技术涵盖视觉感知、大语言模型、Action建模、大模型部署及数据集制作等 [7] - 涉及的最前沿算法包括CoT、MoE、RAG以及强化学习 [7] - 行业主流企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA课程核心内容 - 课程系统讲解自动驾驶VLA三个子领域的前沿算法,并配备两个实战及一个课程大作业 [8] - 课程大纲包含VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及综合大作业 [13][15][16][17][18][21] - 课程设计从原理到实战,包含对开源BenchMark、评测指标及数据集制作专题的详细讲解 [14][15] 自动驾驶VLA算法发展路径 - VLA发展路径显示,Language从被动的场景描述演变为模块化架构中的主动规划组件 [17] - 模块化VLA强调多阶段pipeline,而一体化VLA实现感知到控制的端到端映射 [17] - 推理增强VLA的趋势是向长思维链推理、记忆和交互发展,将VLM/LLM置于控制中心 [18] 行业实践与前沿算法案例 - 课程实战部分选取了华科与小米最新提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等算法进行代码学习 [17][20] - 重点讲解的算法案例包括DriveGPT4、TS-VLM、ORION、DriveMoE、DiffVLA、S4-Driver等业界前沿工作 [16][18][19][24] - 算法训练涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式 [17]
明日开课!自动驾驶VLA三大体系学习路线图:算法+实践
自动驾驶之心· 2025-10-18 16:03
自动驾驶VLA行业趋势 - 端到端技术之后,学术界和工业界聚焦方向是VLA(Vision-Language-Action),其提供类人思考能力,通过思维链形式展现车辆决策过程,从而提升自动驾驶可靠性和安全性[1] - 自动驾驶VLA目前可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 传统BEV感知、车道线、Occupancy等方向相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克方案[4] - 主流自动驾驶企业,包括智驾方案供应商和车企,都在发力自动驾驶VLA自研[4] 课程核心内容 - 课程涵盖自动驾驶VLA三大子领域前沿算法细致讲解,配备两个实战及一个课程大作业[6] - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等[6] - 最前沿算法包括CoT(思维链)、MoE(混合专家模型)、RAG(检索增强生成)、强化学习等[6] - 第一章概述VLA算法概念及发展历史,介绍开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础,包括Vision、Language、Action三个模块基础知识,以及大模型与自动驾驶VLA结合方式[14] - 第三章讲解VLM作为自动驾驶解释器的经典和最新算法,如DriveGPT4、TS-VLM、DynRsl-VLM、SENNA[15] - 第四章聚焦模块化和一体化VLA,讲解语言模型从被动场景描述演变为主动规划组件的过程,配套ReCogDrive实战代码[16] - 第五章聚焦推理增强VLA,讲解长思维链推理、记忆和交互技术,配套Impromptu VLA实战代码[17][19] - 第六章为大作业,基于ms-swift框架进行网络构建、自定义数据集和模型加载,开启训练任务并进行微调[20] 行业技术发展 - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器,实现感知→控制端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释[17] - 课程涉及多家机构最新研究成果,包括华科&小米ICCV2025中稿的ORION、慕尼黑工大OpenDriveVLA、上海交通大学DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo的S4-Driver等[17][18][23]
执行力是当下自动驾驶的第一生命力
自动驾驶之心· 2025-10-17 16:04
行业竞争格局演变 - 智能驾驶行业经历近两年洗牌后,牌桌已更换一批新玩家,但工业界对自动驾驶的投入持续加大,自动驾驶被视为AI核心技术及未来重点布局方向[1] - 行业在2022年之前处于蓬勃发展期,公司只要具备单一长板(如双目技术、硬件能力或AI能力)即可获得发展机会,但此后进入收缩期或平稳期,生存和发展的关键转变为补足短板[1] - 当前在赛道中活跃且表现良好的公司或主机厂,均在系统性地提升硬件、软件、AI能力及工程落地等综合实力,行业实践表明,只有成为“六边形战士”才能在未来竞争中存活并发展得更好[1] 2025年行业展望与人才需求 - 2025年行业将进入冷静期而非收敛期,L3、L4及Robotaxi等新赛道仍存在未解决的技术问题,这为所有参与者保留了机会[2] - 行业变革对个人而言是挑战更是机遇,能够留在行业内担当主力的均为技术栈丰富的综合型人才,抱有“捞一波”心态者将被淘汰,持续积累和构建壁垒是长期受用的策略[2] 自动驾驶之心知识星球社区概况 - 社区旨在解决初学者试错成本高、缺乏完整学习体系的问题,是一个集视频、图文、学习路线、问答、求职交流于一体的综合类自驾社区,目前成员已超过4000人,目标在未来2年内达到近万人规模[4] - 社区联合了众多学术界与工业界专家,内部梳理了超过40种技术路线,并邀请数十位活跃在一线的领域嘉宾答疑解惑,内容涵盖端到端入门、VLA学习路线、数据闭环工程实践等实用主题[4][6] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为、大疆等头部公司,形成了前沿技术聚集地[17] 社区资源与技术覆盖范围 - 社区汇总了近40个开源项目、近60个自动驾驶相关数据集及主流仿真平台,技术学习路线全面覆盖感知、规划控制、仿真、端到端、VLA等核心方向[18][35][37] - 针对热点技术领域如3DGS与NeRF、世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知等,社区均进行了详细的技术梳理和内容汇总[42][44][47][49][53][55] - 社区提供原创直播课程与系列视频教程,内容涵盖感知融合、多传感器标定、SLAM、决策规划、数据工程、端到端与大模型技术等,并建立了与多家自动驾驶公司的岗位内推机制[12][13] 社区互动与专业交流 - 社区内部定期与学术界、工业界专家畅聊技术趋势与量产痛点,并举办超过一百场专业直播分享,内容涉及VLA模型、V2X、3D检测、轨迹生成等前沿话题[7][92] - 成员可自由提问并获得解答,问题范围包括研究方向选择、就业前景分析、技术路线图求取以及企业内部推荐机会,形成了良好的学习交流与求职对接环境[6][21][94]
即将开课!自动驾驶VLA全栈学习路线图分享~
自动驾驶之心· 2025-10-15 23:33
自动驾驶VLA行业趋势 - 自动驾驶VLA是学术界和工业界在端到端之后聚焦的核心方向,提供了类人思考能力并通过思维链形式展现决策过程,以实现更可靠和安全的自动驾驶[1] - 行业将自动驾驶VLA划分为三个子领域:模块化VLA、一体化VLA和推理增强VLA[1] - 传统的BEV感知、车道线、Occupancy等方向相对成熟,学术界和工业界关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案[4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA[4] 自动驾驶VLA技术核心 - 自动驾驶VLA涉及视觉感知、大语言模型、Action建模、大模型部署、数据集制作等核心内容[6] - 最前沿算法包括CoT、MoE、RAG、强化学习[6] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器,实现感知→控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释,支持长时序规划和因果解释[17] 课程内容与结构 - 课程第一章介绍VLA算法概念、发展历史、开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础,涵盖Vision、Language、Action三个模块基础知识及大模型结合,并以Qwen 2.5VL-72为例讲解开源大模型部署[14] - 第三章讲解VLM作为自动驾驶解释器的经典及最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA,重点分析算法动机、网络结构和核心[15] - 第四章聚焦模块化与一体化VLA,配套实战代码学习选取华科和小米最新提出的ReCogDrive,涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等技术栈[16] - 第五章聚焦推理增强VLA,讲解ORION、OpenDriveVLA、DriveMoE、DiffVLA、S4-Driver、FutureSightDrive、AutoVLA、Drive-R1等算法,并配套清华AIR和博世提出的Impromptu VLA实战代码[17][18][19][23] - 第六章设置大作业,要求学员基于ms-swift框架自定义数据集和加载模型,进行训练任务微调,并提供V-L-A各部分代码解读[20] 行业人才培养 - 课程由清华大学教研团队联合开展,旨在推动自动驾驶VLA在学术界和工业界的发展[6][22] - 讲师团队包括在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表论文的清华大学硕士生、QS30高校博士在读研究员,具备丰富的自动驾驶、大模型研发和实战经验[8][9] - 学员需自备GPU,推荐算力在4090及以上,并具备自动驾驶领域基础、transformer大模型、强化学习、BEV感知等技术概念,以及概率论、线性代数、Python和PyTorch基础[24] - 课程为国内首个自动驾驶VLA进阶实战教程,预计两个半月结课,采用离线视频教学配合VIP群内答疑及三次线上答疑的模式[22][23]