《自动驾驶VLA实战课程》

搜索文档

自动驾驶之心· 2025-09-24 06:35

基于模仿学习的端到端本质只是在模仿人类，对物理世界的理解并不透彻。因此VLA提供了这样一种可能，从模仿人类到成为人类。业内这两年追捧的端到端，标志着智能驾驶从规则驱动向数据驱动的根本转变。但在实际量产中，端到端虽然提供了一个打通上下游视角的能力，但面对复杂的困难场景仍然受限。如果在自动驾驶公司工作过，就知道量产模型的迭代仍然被限制在无限corner case的循环中。这里也借用李想AI Talk的一段话： " 端到端比较像什么呢？端到端比较像哺动物的智能，比如像马戏团里的一些动物，向人类学习怎么骑自行车。它学了人类的这些行为，人类怎么去做出各种的行为的开车。但是它对物理世界并不理解，它只是看到了一个什么样的三维的图像，知道自身的速度，并给出了一个什么样的轨迹，所以它应付大部分的泛化是没有问题的，去面对它从来没有学到的、特别复杂的，其实就会遇到问题。所以这时候我们也会配合，视觉语言模型 VLM，然后放进来。但是我们能够用到的视觉语言模型这些开源的，用在交通上的能力都非常的有限，所以只能起到一些非常有限的辅助的一个作用。我觉得第二个阶段就是哺乳动物智能运作的一个方式。 " VLA本质上也可以算作是一种 ...

自动驾驶VLA

自动驾驶VLA发展到哪个阶段了？现在还适合搞研究吗？

自动驾驶之心· 2025-09-22 08:04

智能驾驶技术演进 - 行业正经历从规则驱动向数据驱动的根本转变端到端方法虽能打通上下游视角但在复杂困难场景中仍受限 [1] - 视觉语言动作模型成为新焦点其本质是一种更直白干净的端到端架构取消了复杂的3D感知任务借鉴视觉语言模型的通用泛化能力提供解决极端案例的可能性 [1] 技术发展现状 - 自动驾驶视觉语言动作模型技术栈尚未收敛多种算法如雨后春笋般涌现包括模块化架构和一体化架构等不同范式 [2] - 行业面临技术栈多样化带来的入门困难论文数量繁多且知识碎片化缺乏高质量文档和系统实战指导从理论到实践的过渡存在挑战 [2] 课程体系设计 - 课程采用即时学习理念通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [3] - 构建领域框架提升研究能力帮助学员梳理研究发展脉络掌握核心框架学会论文分类和创新点提取 [4] - 理论结合实践完成闭环学习配备实战环节实现从理论到实践的完整过渡 [5] 课程内容架构 - 第一章概述视觉语言动作模型算法概念及发展历史详细介绍开源基准测试和常见评测指标 [14][15] - 第二章聚焦视觉语言动作三大模块的基础知识并扩展大模型部署使用内容以Qwen 2.5VL-72为例讲解本地部署 [16][17] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典算法包括DriveGPT4 TS-VLM DynRsl-VLM SENNA等重点分析算法动机和网络结构 [18][19] - 第四章深入模块化与一体化视觉语言动作模型涵盖BEV感知动静态检测占用网络轨迹预测序列建模模态对齐动作解码器 RAG 思维链监督微调强化学习混合专家模型等技术要点 [20][21] - 第五章专注推理增强视觉语言动作模型子领域讲解思维链记忆体工具调用等推理模块分析长时序规划和因果解释能力 [23][24] - 第六章设置大作业实践基于ms-swift框架开展自定义数据集训练和模型微调提供可修改优化的演示代码 [26] 实战案例配置 - 选用华科与小米最新提出的ReCogDrive作为第四章实战案例包含预训练模仿学习训练和强化学习训练三阶段涵盖GRPO和扩散模型轨迹输出等技术栈 [22] - 选用清华AIR与博世提出的Impromptu VLA作为第五章实战案例基于开源Qwen2.5 VL进行数据集制作训练和推理 [24] 师资与学术资源 - 教学团队来自清华大学和QS30高校在ICCV IROS EMNLP等顶级会议发表多篇论文具备多模态大模型与自动驾驶研发经验 [27] - 课程覆盖多项前沿研究成果包括慕尼黑工大OpenDriveVLA 上海交大DriveMoE 博世DiffVLA UC Berkeley S4-Driver 华科ORION 阿里FutureSightDrive UCLA AutoVLA 中科院Drive-R1等 [29][30] 教学安排要求 - 课程于10月20日开课预计两个半月完成采用离线视频教学配合VIP群答疑和三次线上答疑 [32] - 学员需自备4090及以上算力GPU 具备自动驾驶基础 Transformer大模型强化学习 BEV感知等技术背景熟悉Python和PyTorch开发语言 [31]