课程核心定位 - 课程为自动驾驶领域首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,并助力学员深入理解端到端自动驾驶 [11] - 课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等前沿工作 [1] - 课程由工业界专家授课,内容基于讲师丰富的端到端算法研发和量产实战经验 [3] 讲师背景 - 讲师Jason拥有C9本科和QS50高校的博士学位,已发表多篇CCF-A/B类论文 [3] - 现任国内顶级主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持完成多项自动驾驶感知和端到端算法的产品量产交付 [3] 课程大纲与内容结构 - 第一章:世界模型介绍 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同技术流派(如纯仿真、仿真+Planning、生成传感器输入等)及其在业界解决的问题和所处环节,并介绍相关数据集与评测 [6] - 第二章:世界模型的背景知识 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当前世界模型求职面试频率最高的技术关键词 [6][7] - 第三章:通用世界模型探讨 聚焦通用世界模型及近期热门工作,详细讲解李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [7] - 第四章:基于视频生成的世界模型 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上海交通大学的UniScene、商汤的OpenDWM、中科大的InstaDrive等经典与前沿工作,并以商汤开源的OpenDWM进行实战 [8] - 第五章:基于OCC的世界模型 聚焦OCC生成类世界模型算法,包含三大论文讲解和一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端 [9] - 第六章:世界模型岗位专题 基于前五章算法基础,分享工业界应用经验、行业痛点、期望解决的问题,以及相关岗位面试准备与公司关注重点 [10] 关键技术覆盖与学后收获 - 关键技术覆盖 课程将详细讲解Transformer、视觉Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等生成式模型 [12] - 核心算法掌握 学员将掌握世界模型技术进展,涵盖视频生成、OCC生成等方法,并对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解 [14] - 实战能力目标 学员学完后能够复现II-World、OpenDWM等主流算法框架,能够将所学应用到项目中,设计自己的世界模型,达到约1年经验的自动驾驶算法工程师水平 [14] - 职业发展受益 课程内容对实习、校招、社招均有助益 [14] 课程进度与安排 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,并提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [15] - 各章节解锁时间安排如下:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [16] 面向人群与先修要求 - 面向人群 课程面向具备一定自动驾驶领域基础,熟悉基本模块的学员 [14] - 先修知识要求 学员需了解transformer大模型、扩散模型、BEV感知等基本概念,具备一定的概率论、线性代数基础,以及Python和PyTorch编程能力 [14] - 硬件要求 学员需要自备GPU,推荐算力在RTX 4090及以上 [14]
世界模型自动驾驶小班课!特斯拉世界模型、视频&OCC生成速通
自动驾驶之心·2025-12-09 19:00