自动驾驶VLA全栈学习路线图
自动驾驶之心·2025-12-09 19:00

自动驾驶行业技术趋势 - 在端到端技术之后,视觉语言动作模型已成为学术界和工业界聚焦的核心方向,它提供了类人思考的能力,通过思维链形式展现车辆决策过程,旨在提供更可靠、更安全的自动驾驶能力 [1] - 传统的BEV感知、车道线、Occupancy等方向已相对成熟,学术界和工业界的关注度正在逐渐下降,目前自动驾驶VLA是各家企业急需攻克的方案 [4] - 主流的自动驾驶企业,包括智驾方案供应商和车企,都在发力自动驾驶VLA的自研 [4] 自动驾驶VLA技术分类与核心内容 - 自动驾驶VLA目前可分为三个子领域:模块化VLA、一体化VLA和推理增强VLA [1] - 该领域涉及的核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等 [6] - 最前沿的算法包括思维链、混合专家模型、检索增强生成、强化学习等 [6] 自动驾驶VLA课程概述与师资 - 课程由清华大学教研团队联合推出,名为《自动驾驶VLA与大模型实战课程》,是国内首个自动驾驶VLA进阶实战教程 [6][21] - 课程旨在推动自动驾驶VLA在学术界和工业界的发展,帮助学习者真正理解VLA [21] - 讲师团队包括来自清华大学和QS30高校的硕士生与博士生,他们在ICCV、IROS、EMNLP等顶级会议发表过多篇论文,研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等,并拥有丰富的研发和实战经验 [8] 课程结构与内容大纲 - 第一章:自动驾驶VLA算法介绍 - 讲解VLA算法的概念、发展历史、任务拆解,并介绍开源的BenchMark和常见评测指标,帮助学员建立整体了解 [11][12] - 第二章:VLA的算法基础 - 讲解Vision、Language和Action三个模块的基础知识,阐述大模型与自动驾驶VLA的结合方式,并扩展讲解以Qwen 2.5VL-72B为例的开源大模型本地部署和使用 [13] - 第三章:VLM作为自动驾驶解释器 - 讲解VLA概念提出前,VLM作为解释器参与场景理解的经典及最新算法,如DriveGPT4、TS-VLM等,重点分析其动机、网络结构与核心算法 [14] - 第四章:模块化&一体化VLA - 聚焦模块化和一体化VLA,讲解语言模型从被动描述演变为主动规划组件的过程,对比多阶段pipeline与端到端映射的差异,并配套实战代码学习华科与小米最新提出的ReCogDrive模型 [15] - 第五章:推理增强VLA - 聚焦推理增强VLA,讲解其通过思维链、记忆、工具调用等实现长时序规划与因果解释的特点,重点分析ORION、DriveMoE、DiffVLA、S4-Driver等算法,并配套实战代码学习清华AIR与博世提出的Impromptu VLA模型 [16][17][18] - 第六章:大作业 - 要求学员基于ms-swift框架,从网络构建开始,自定义数据集和加载模型,开启训练任务并进行微调,注重动手实操能力 [19] 课程安排与学习要求 - 课程为离线视频教学,开课时间为10月20日,预计两个半月结课,包含VIP群答疑和三次线上答疑,各章节按计划时间解锁 [22] - 学习要求学员自备GPU,推荐算力在RTX 4090及以上,并需具备一定的自动驾驶领域基础、Transformer大模型、强化学习、BEV感知等概念知识,以及概率论、线性代数、Python和PyTorch基础 [23] - 学后收获包括彻底理解自动驾驶VLA当前进展、掌握三大子领域核心算法、加深对视觉感知等多模态AI技术的了解、能够复现主流算法并应用于实际项目,对实习、校招、社招均有助益 [23]