智能驾驶技术演进 - 行业正经历从规则驱动向数据驱动的根本转变 端到端方法虽能打通上下游视角 但在复杂困难场景中仍受限 [1] - 视觉语言动作模型成为新焦点 其本质是一种更直白干净的端到端架构 取消了复杂的3D感知任务 借鉴视觉语言模型的通用泛化能力 提供解决极端案例的可能性 [1] 技术发展现状 - 自动驾驶视觉语言动作模型技术栈尚未收敛 多种算法如雨后春笋般涌现 包括模块化架构和一体化架构等不同范式 [2] - 行业面临技术栈多样化带来的入门困难 论文数量繁多且知识碎片化 缺乏高质量文档和系统实战指导 从理论到实践的过渡存在挑战 [2] 课程体系设计 - 课程采用即时学习理念 通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [3] - 构建领域框架提升研究能力 帮助学员梳理研究发展脉络 掌握核心框架 学会论文分类和创新点提取 [4] - 理论结合实践完成闭环学习 配备实战环节实现从理论到实践的完整过渡 [5] 课程内容架构 - 第一章概述视觉语言动作模型算法概念及发展历史 详细介绍开源基准测试和常见评测指标 [14][15] - 第二章聚焦视觉 语言 动作三大模块的基础知识 并扩展大模型部署使用内容 以Qwen 2.5VL-72为例讲解本地部署 [16][17] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典算法 包括DriveGPT4 TS-VLM DynRsl-VLM SENNA等 重点分析算法动机和网络结构 [18][19] - 第四章深入模块化与一体化视觉语言动作模型 涵盖BEV感知 动静态检测 占用网络 轨迹预测 序列建模 模态对齐 动作解码器 RAG 思维链 监督微调 强化学习 混合专家模型等技术要点 [20][21] - 第五章专注推理增强视觉语言动作模型子领域 讲解思维链 记忆体 工具调用等推理模块 分析长时序规划和因果解释能力 [23][24] - 第六章设置大作业实践 基于ms-swift框架开展自定义数据集训练和模型微调 提供可修改优化的演示代码 [26] 实战案例配置 - 选用华科与小米最新提出的ReCogDrive作为第四章实战案例 包含预训练 模仿学习训练和强化学习训练三阶段 涵盖GRPO和扩散模型轨迹输出等技术栈 [22] - 选用清华AIR与博世提出的Impromptu VLA作为第五章实战案例 基于开源Qwen2.5 VL进行数据集制作 训练和推理 [24] 师资与学术资源 - 教学团队来自清华大学和QS30高校 在ICCV IROS EMNLP等顶级会议发表多篇论文 具备多模态大模型与自动驾驶研发经验 [27] - 课程覆盖多项前沿研究成果 包括慕尼黑工大OpenDriveVLA 上海交大DriveMoE 博世DiffVLA UC Berkeley S4-Driver 华科ORION 阿里FutureSightDrive UCLA AutoVLA 中科院Drive-R1等 [29][30] 教学安排要求 - 课程于10月20日开课 预计两个半月完成 采用离线视频教学配合VIP群答疑和三次线上答疑 [32] - 学员需自备4090及以上算力GPU 具备自动驾驶基础 Transformer大模型 强化学习 BEV感知等技术背景 熟悉Python和PyTorch开发语言 [31]
自动驾驶VLA发展到哪个阶段了?现在还适合搞研究吗?
自动驾驶之心·2025-09-22 08:04