Workflow
VLM
icon
搜索文档
自动驾驶VLA发展到哪个阶段了?现在还适合搞研究吗?
自动驾驶之心· 2025-09-22 08:04
智能驾驶技术演进 - 行业正经历从规则驱动向数据驱动的根本转变 端到端方法虽能打通上下游视角 但在复杂困难场景中仍受限 [1] - 视觉语言动作模型成为新焦点 其本质是一种更直白干净的端到端架构 取消了复杂的3D感知任务 借鉴视觉语言模型的通用泛化能力 提供解决极端案例的可能性 [1] 技术发展现状 - 自动驾驶视觉语言动作模型技术栈尚未收敛 多种算法如雨后春笋般涌现 包括模块化架构和一体化架构等不同范式 [2] - 行业面临技术栈多样化带来的入门困难 论文数量繁多且知识碎片化 缺乏高质量文档和系统实战指导 从理论到实践的过渡存在挑战 [2] 课程体系设计 - 课程采用即时学习理念 通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [3] - 构建领域框架提升研究能力 帮助学员梳理研究发展脉络 掌握核心框架 学会论文分类和创新点提取 [4] - 理论结合实践完成闭环学习 配备实战环节实现从理论到实践的完整过渡 [5] 课程内容架构 - 第一章概述视觉语言动作模型算法概念及发展历史 详细介绍开源基准测试和常见评测指标 [14][15] - 第二章聚焦视觉 语言 动作三大模块的基础知识 并扩展大模型部署使用内容 以Qwen 2.5VL-72为例讲解本地部署 [16][17] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典算法 包括DriveGPT4 TS-VLM DynRsl-VLM SENNA等 重点分析算法动机和网络结构 [18][19] - 第四章深入模块化与一体化视觉语言动作模型 涵盖BEV感知 动静态检测 占用网络 轨迹预测 序列建模 模态对齐 动作解码器 RAG 思维链 监督微调 强化学习 混合专家模型等技术要点 [20][21] - 第五章专注推理增强视觉语言动作模型子领域 讲解思维链 记忆体 工具调用等推理模块 分析长时序规划和因果解释能力 [23][24] - 第六章设置大作业实践 基于ms-swift框架开展自定义数据集训练和模型微调 提供可修改优化的演示代码 [26] 实战案例配置 - 选用华科与小米最新提出的ReCogDrive作为第四章实战案例 包含预训练 模仿学习训练和强化学习训练三阶段 涵盖GRPO和扩散模型轨迹输出等技术栈 [22] - 选用清华AIR与博世提出的Impromptu VLA作为第五章实战案例 基于开源Qwen2.5 VL进行数据集制作 训练和推理 [24] 师资与学术资源 - 教学团队来自清华大学和QS30高校 在ICCV IROS EMNLP等顶级会议发表多篇论文 具备多模态大模型与自动驾驶研发经验 [27] - 课程覆盖多项前沿研究成果 包括慕尼黑工大OpenDriveVLA 上海交大DriveMoE 博世DiffVLA UC Berkeley S4-Driver 华科ORION 阿里FutureSightDrive UCLA AutoVLA 中科院Drive-R1等 [29][30] 教学安排要求 - 课程于10月20日开课 预计两个半月完成 采用离线视频教学配合VIP群答疑和三次线上答疑 [32] - 学员需自备4090及以上算力GPU 具备自动驾驶基础 Transformer大模型 强化学习 BEV感知等技术背景 熟悉Python和PyTorch开发语言 [31]
小鹏&理想全力攻坚的VLA路线,到底都有哪些研究方向?
自动驾驶之心· 2025-09-17 23:33
VLA绝对是今年自动驾驶学术界和工业界的主流关键词。 去年的端到端+VLM,标志着智能驾驶从规则驱动向数据驱动的根本转变。在实际中使用我们发现,端到端虽然提供了一个打通上下游视角的能力,但面对复杂的困难场 景仍然受限。如果在自动驾驶公司工作过,就知道量产模型的迭代仍然被限制在无限corner case的循环中。 VLA本质上也可以算作是一种端到端,不过更加直白和干净,很多方法也取消了传统端到端的复杂的3D感知任务。借鉴VLM更强大的通用泛化能力,除了任务更简洁, VLA更重要的还是提供了一种解决corner case的可能性。 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。自动驾驶VLA的技术栈仍然没有收敛!一系列算法如雨后春笋般冒出: 技术栈多?入门困难? 前一段时间我们推出了《端到端与VLA自动驾驶小班课》,这门课侧重在端到端自动驾驶的技术栈梳理,同学们的反馈很好。 所以很多同学联系自动驾驶之心想学习更多 关于VLA的前沿知识! 因此我们联合国内外的教研团队共同打造了《自动驾驶VLA实战教程》,针对自动驾驶VLA的技术栈进行了全面的梳理。 学习自动驾驶VLA,是一个一站式强化多领域 ...
自动驾驶中有“纯血VLA"吗?盘点自动驾驶VLM到底能起到哪些作用~
自动驾驶之心· 2025-09-06 16:05
视觉语言自动驾驶模型技术实现 - 模型支持不同数量相机输入 无需明确指定相机数量[2] - 轨迹输出采用文本形式 通过Prompt限制为XY坐标格式[4] - 输出坐标为车辆坐标系相对值 原点为(0,0) 非图像坐标[6] - 使用Python编程进行轨迹格式规范化处理 确保输出符合预期[8] - 通过JSON格式和关键词约束优化未经训练模型的输出效果[9] 数据集构建与处理 - 遇到坐标异常问题 连续多帧坐标相同后出现突变[14] - 不同数据集存在坐标格式差异 包括经纬度与相对坐标[14] - 通过规则化方法剔除不合理轨迹数据[14] - 统一转换为自车坐标系下的相对位移进行数据对齐[18] - 输入为图像和前1.5秒轨迹点 输出未来5秒轨迹点[20] 模型训练与性能 - 经过数据训练后模型输出格式符合性显著提升[8] - 通过QA训练获得多模态轨迹预测和场景理解能力[11] - 具备动态物体轨迹预测能力 包括车辆行人运动预测[11] - 新增端到端预测任务确保数据完整性[20] 社区资源与技术覆盖 - 知识星球涵盖40+技术方向包括多模态大模型和端到端自动驾驶[22] - 社区成员来自头部自驾公司和高校实验室 超4000人规模[24] - 提供近40个技术路线图和学习入门路线[24] - 包含自动驾驶数据集汇总与仿真工具资源[27] - 建立与多家自动驾驶公司的岗位内推机制[29]
端到端VLA的起点:聊聊大语言模型和CLIP~
自动驾驶之心· 2025-08-19 07:20
大语言模型技术发展 - 大语言模型近五年发展迅速,Transformer架构是核心技术基础 [3][5][7] - Transformer核心模块包括注意力机制和多头注意力,通过8个head增强编解码能力 [11][12] - 位置编码采用正弦/余弦函数实现顺序表征,公式为PE(pos,2i)=sin(pos/10000^(2i/d_model)) [9][13] - BPE分词算法通过合并高频字符逐步构建词表,流程包括统计频次、迭代合并等步骤 [8][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的典型代表,实现跨模态特征匹配 [18] - 多模态技术栈涵盖BEV感知、扩散模型、强化学习等方向 [48] - VLA(Vision-Language-Action)成为自动驾驶前沿方向,整合VLM、BEV和强化学习技术 [50] 端到端自动驾驶课程体系 课程结构 - 第一章概述端到端发展史,对比模块化与端到端范式差异 [40] - 第二章重点讲解大语言模型、BEV感知、扩散模型等关键技术 [41][48] - 第三章分析二段式端到端方案,涵盖PLUTO、CarPlanner等经典算法 [42] - 第四章深入一段式端到端,包括UniAD、DiffusionDrive等前沿工作 [43][47] - 第五章设置RLHF微调实战,强化VLA技术迁移能力 [52] 技术亮点 - 覆盖CVPR'25最新成果CarPlanner和AAAI'25世界模型Drive-OccWorld [42][45] - 实战项目包括Diffusion Planner和ORION开源框架复现 [47][50] - 课程目标使学员达到1年经验算法工程师水平,掌握40-70K岗位核心技术 [31][57] 行业应用与人才需求 - VLA算法专家岗位薪资达40-70K-15薪,需求集中在3-5年经验硕士 [31] - 技术栈要求涵盖多模态大模型、BEV感知、模型量化部署等方向 [34][48] - 主机厂加速布局端到端量产方案,推动世界模型、扩散模型等技术落地 [26][50]
自动驾驶秋招交流群成立了!
自动驾驶之心· 2025-08-18 23:32
技术发展趋势 - 自动驾驶技术栈呈现趋同态势 从过去几十个方向算法需求转向统一方案如one model、VLM和VLA [1] - 技术方案统一化实际形成更高行业技术壁垒 [1] 行业社群建设 - 建立综合型平台汇集全行业人才 通过社群方式促进产业人才共同成长 [1] - 社群内容覆盖相关产业讨论、公司分析、产品研发及求职跳槽等专业领域 [1] - 提供行业社交网络构建渠道 帮助成员获取产业第一手信息 [1]
车企、科技企业VLA研发进展
中国汽车报网· 2025-08-13 01:33
理想汽车 - 理想i8核心亮点为VLA"司机大模型",是智驾领域继端到端+VLM后的新进展 [1] - VLA模块全新设计,空间编码器结合语言模型与逻辑推理优化驾驶决策,Diffusion模型预测轨迹 [1] - VLA推理帧率10赫兹,较VLM的3赫兹提升3倍多 [1] 小鹏汽车 - 小鹏G7 Ultra版明确VLA和VLM上车时间表:2025年9月VLA推送,11月VLM升级,12月实现智能学习个性化推荐 [2] - 车型搭载3颗自研图灵AI芯片,综合算力2250TOPS,居量产车领先水平 [2] 奇瑞汽车 - 2025年通过猎鹰900智驾系统将VLA与世界模型引入燃油车,实现"油电同智" [3] - 自研VLA模型融合视觉感知、语言理解与动作执行,训练数据2000万公里,覆盖5000种交通场景 [3] - 城区复杂路况中非标交通信号识别准确率92%,较传统系统提升37% [3] 吉利汽车 - 布局VLA技术,构建泛世界模型体系,千里浩瀚系统采用"双端到端模型"设计 [4] - 系统搭载双英伟达Thor芯片,总算力1400TOPS,40余个感知单元可探测300米外0.75米目标 [4] 元戎启行 - 三季度将有5款车型搭载VLA模型,去年6月已开始开发,进度领先 [5] - VLA模型主打防御性驾驶,含空间语义理解、异形障碍物识别等四大功能 [5] - 模型率先适配NVIDIA Thor芯片,后续将优化适配更多平台 [5] 行业技术趋势 - VLA技术成为车企智驾竞争焦点,涉及推理帧率提升、多模态融合、场景覆盖等维度 [1][3][5] - 高算力芯片(如2250TOPS图灵、1400TOPS Thor)支撑复杂模型部署 [2][4][5] - 燃油车与电动车同步推进VLA应用,打破"油电"智能化界限 [3]
自动驾驶秋招&社招求职群成立了!
自动驾驶之心· 2025-08-04 23:33
自动驾驶技术趋势 - 自动驾驶技术栈呈现趋同态势,从过去分散的几十个方向逐渐向统一方案演进 [1] - 当前技术发展重点集中在one model、VLM(视觉语言模型)、VLA(视觉语言行动模型)等统一架构 [1] - 技术方案统一化背后反映出行业技术壁垒的显著提升 [1] 行业社群发展 - 行业社群定位为综合型平台,旨在汇集自动驾驶全产业链人才 [1] - 社群主要功能包括产业动态讨论、公司分析、产品研发交流、求职与职业发展等内容 [1] - 社群运营目标是通过资源共享帮助从业者成长,并建立行业人脉网络 [1]
开课倒计时!国内首个自动驾驶端到端项目级教程来啦~
自动驾驶之心· 2025-08-02 06:00
端到端自动驾驶行业现状 - 端到端自动驾驶已成为国内主流新能源主机厂技术竞争的核心领域 自去年E2E+VLM双系统架构成功以来 行业加速迭代 今年上半年VLA概念进一步推动量产方案升级 [2] - 行业人才需求旺盛 3-5年经验的VLM/VLA岗位年薪达百万 月薪高达80K 校招/社招转岗需求激增 [2] - 技术流派分化明显 包括以PLUTO为代表的二段式端到端 以UniAD为代表的一段式端到端 以及基于世界模型/扩散模型/VLA的新兴流派 [4] 技术流派分类与特点 - **二段式端到端**:通过模型实现自车规划 代表工作包括港科技PLUTO 浙大CarPlanner(CVPR'25) 中科院Plan-R1 相比一段式具有明确规划模块优势 [4][20] - **一段式端到端**: - 基于感知的方法:UniAD持续迭代 地平线VAD和CVPR'24的PARA-Drive推动性能提升 [21] - 基于世界模型的方法:AAAI'25的Drive-OccWorld和复旦OccLLaMA拓展场景生成与闭环仿真应用 [21] - 基于扩散模型的方法:DiffusionDrive/Diffusion Planner/吉大DiffE2E实现多模轨迹预测 适应环境不确定性 [21] - 基于VLA的方法:小米ORION 慕尼黑工大OpenDriveVLA 最新ReCogDrive代表大模型时代技术前沿 [21] 核心技术栈与学习路径 - 必备技术包括大语言模型 BEV感知 扩散模型理论 强化学习与RLHF DEEPSEEK优化技术等 构成未来两年求职高频考点 [6][22] - 学习难点在于多领域知识融合(多模态大模型/BEV/强化学习/视觉Transformer/扩散模型) 论文碎片化 缺乏实战闭环指导 [12][13] - 行业推出《端到端与VLA自动驾驶小班课》 采用Just-in-Time Learning理念 覆盖技术框架构建(第二章) 二段式(第三章) 一段式与VLA(第四章) 及RLHF微调实战(第五章) [14][15][16][21][23] 职业发展前景 - VLA/VLM大模型算法专家岗位3-5年经验硕士薪资达40-70K·15薪 博士应届生可达90-120K·16薪 实习生日薪220-400元 [11] - 职业路径包括算法岗技能深化 或转型自动驾驶大模型工程师 需掌握VLM/VLA多模态 模型量化部署等核心技术 [9][10] - 课程目标使学员达到1年经验算法工程师水平 可复现扩散模型/VLA框架 应用于实习/校招/社招场景 [28] 课程体系设计 - 第一章梳理端到端发展历史 对比模块化/一段式/二段式/VLA范式优缺点 分析学术与工业界动态 [19] - 第二章重点突破背景知识 包括Transformer扩展至视觉Transformer CLIP/LLAVA多模态基础 BEV感知实现3D检测/车道线/OCC等核心功能 [22] - 实战环节配置Diffusion Planner和小米ORION开源项目 结合RLHF微调大作业强化工程能力 [21][23] - 课程周期3个月 8月15日开课 分阶段解锁章节 需自备4090及以上GPU算力 要求具备Transformer/BEV/强化学习基础概念 [28]
秋招正当时!自动驾驶之心求职交流群来啦~
自动驾驶之心· 2025-07-28 03:15
行业趋势与人才需求 - 自动驾驶技术栈呈现趋同态势 传统分散的算法工程师需求正被统一技术方案取代 如one model、VLM、VLA等方向 [1] - 行业技术壁垒显著提升 统一方案推动对高阶技术人才的需求 [1] - 从业者普遍存在转型需求 包括传统规控转向大模型、具身智能等新兴领域 [1] 社群运营与行业资源 - 社群定位为综合型行业平台 聚焦自动驾驶产业讨论 涵盖公司动态、产品研发及求职跳槽等核心议题 [1] - 社群目标为整合全行业人才资源 通过交流促进成员职业发展 [1] - 提供产业信息第一手渠道 强化行业人脉网络建设 [1] 人才流动特征 - 校招群体面临实习限制与算力资源短缺等结构性困境 [1] - 资深从业者主动寻求技术方向转型 反映行业技术迭代加速 [1]
70K?端到端VLA现在这么吃香!?
自动驾驶之心· 2025-07-21 11:18
端到端自动驾驶技术发展 - 端到端自动驾驶已成为国内主流新能源主机厂抢占的技术高地 上半年VLA概念掀起新一轮量产方案迭代 [2] - 行业薪资水平显示:3-5年经验的VLM/VLA算法专家年薪达百万 月薪高达70K [2] - 技术流派分化明显:二段式端到端以PLUTO为代表 一段式分为感知型(UniAD)、世界模型型(OccWorld)、扩散模型型(DiffusionDrive)等四大方向 [4] 技术流派与前沿进展 - 二段式端到端聚焦模型自车规划 包含港科技PLUTO、浙大CarPlanner(CVPR'25)、中科院Plan-R1等代表性工作 [7][22] - 一段式端到端四大子领域: - 感知型:UniAD为奠基作 地平线VAD和CVPR'24的PARA-Drive为最新进展 [23] - 世界模型型:AAAI'25的Drive-OccWorld和复旦OccLLaMA实现场景生成/端到端/闭环仿真多应用 [23] - 扩散模型型:DiffusionDrive开创多模轨迹时代 吉大DiffE2E为最新成果 [23] - VLA型:小米ORION、慕尼黑工大OpenDriveVLA和ReCogDrive代表大模型时代技术方向 [23] 行业人才需求 - VLA/VLM算法专家岗位需求旺盛: - 3-5年经验硕士薪资40-70K·15薪 [10] - 多模态方向博士应届生可达90-120K·16薪 [10] - 模型量化部署工程师1-3年经验薪资40-60K·15薪 [10] - 技术能力要求涵盖大语言模型 BEV感知 扩散模型 强化学习与RLHF等跨领域知识 [7][15] 技术培训体系 - 课程体系覆盖五大模块: - 端到端发展历史与VLA范式演变 [21] - 核心技术栈包括Transformer/CLIP/LLAVA/BEV感知/扩散模型理论 [24] - 二段式与一段式技术对比及工业落地 [22][23] - RLHF微调实战与大模型强化学习应用 [25] - 教学采用Just-in-Time Learning理念 三个月完成从理论到实践的闭环训练 [16][17][18][30] 技术门槛与挑战 - 学习路径需同时掌握多模态大模型 BEV感知 视觉Transformer 扩散模型等六大技术领域 [15] - 论文数量繁多且知识碎片化 高质量文档稀缺导致入门难度高 [15] - 硬件要求需配备4090及以上算力GPU 需具备Transformer和PyTorch基础 [32]