世界模型与自动驾驶:最新算法&实战项目(特斯拉、视频、OCC等)
自动驾驶之心·2025-12-15 06:00

课程核心信息 - 课程名称为世界模型小班课,是继《端到端与VLA自动驾驶小班课》后推出的进阶课程,聚焦于通用世界模型、视频生成、OCC生成等世界模型算法 [2] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地,助力学员理解端到端自动驾驶 [12] - 课程开课时间为1月1号,预计两个半月结课,采用离线视频教学,并提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [16] 讲师背景 - 讲师Jason拥有C9本科和QS50高校的博士学位,已发表CCF-A论文2篇及若干CCF-B论文 [4] - 现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持完成多项自动驾驶感知和端到端算法的产品量产交付 [4] 课程大纲与内容 - 第一章:世界模型介绍 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同流派(如纯仿真、仿真+Planning、生成传感器输入、生成感知结果)及其在业界解决的问题和应用环节,并介绍相关数据集与评测 [7] - 第二章:世界模型的背景知识 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当下世界模型求职面试频率最高的技术关键词 [7][8] - 第三章:通用世界模型探讨 聚焦通用世界模型及近期热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [8] - 第四章:基于视频生成的世界模型 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上交CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战 [9] - 第五章:基于OCC的世界模型 聚焦OCC生成类世界模型算法,包含三大论文讲解和一个项目实战,此类方法可扩展为自车轨迹规划以实现端到端 [10] - 第六章:世界模型岗位专题 基于前五章算法基础,分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位面试准备与公司关注内容 [11] 关键技术覆盖 - 课程将复习Transformer基本概念并扩展到视觉Transformer,讲解为多模态大模型奠定基础的CLIP和LLaVA [13] - 详细介绍BEV感知基础知识及常见的占用网络,讲解扩散模型理论知识及其在多模轨迹输出中的应用 [13] - 梳理世界模型中常提的闭环仿真、NeRF和3DGS的核心概念,并讲解其他生成式模型如VAE、GAN以及Next Token Prediction [13] - 基于OCC的世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World等具体工作 [14] 面向人群与学后收获 - 面向人群要求 学员需自备GPU,推荐算力在4090及以上,具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,了解transformer大模型、扩散模型、BEV感知等基本概念,具备概率论、线性代数基础及Python和PyTorch语言基础 [15] - 预期学习成果 学完课程能够达到1年左右世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,可复现II-World、OpenDWM等主流算法框架,并能将所学应用到项目设计中,对实习、校招、社招均有助益 [15] 课程进度安排 - 课程章节按计划解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [17]