视频生成世界模型
搜索文档
工业界大佬带队!彻底搞懂自动驾驶世界模型...
自动驾驶之心· 2025-12-11 03:35
课程核心定位 - 课程为自动驾驶领域首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,并助力学员深入理解端到端自动驾驶 [11] - 课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等前沿工作 [1] - 课程由工业界专家授课,内容基于讲师丰富的端到端算法研发和量产交付实战经验 [3][6] 课程内容与结构 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同技术流派(如纯仿真、仿真+规划、生成传感器输入等)及其在业界解决的问题与所处环节,并介绍相关数据集与评测 [6] - **第二章:世界模型背景知识** 讲解世界模型的基础技术栈,包括场景表征、Transformer、BEV感知等,这些内容是当前世界模型求职面试频率最高的技术关键词 [6][7] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细讲解李飞飞团队Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [7] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上海交大CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战 [8] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,讲解清华OccWorld、复旦OccLLaMA、华科ICCV'25的HERMES、西交II-World等三篇论文,并进行一个项目实战,此类方法可扩展至自车轨迹规划以实现端到端 [9][13] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用现状、行业痛点、期望解决的问题,以及如何准备相关岗位面试,内容为公司真正关注的经验积累 [10] 课程技术覆盖与学后收获 - **关键技术覆盖** 课程涵盖Transformer、视觉Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等生成式模型 [12] - **预期能力提升** 学员学完后预期能达到相当于1年左右经验的世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,并对BEV感知、多模态大模型等关键技术有更深刻理解 [14] - **实践成果** 学员将能够复现II-World、OpenDWM等主流算法框架,并将所学应用到项目中,真正搞懂如何设计自己的世界模型,对实习、校招、社招均有助益 [14] 课程安排与面向人群 - **课程进度** 课程于1月1日开课,预计两个半月结课,采用离线视频教学,配合VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [15] - **章节解锁时间** 第一章于12月10日解锁,后续章节在1月1日至3月1日期间陆续解锁 [16] - **学员基础要求** 学员需自备算力在4090及以上的GPU,具备一定的自动驾驶领域基础,熟悉Transformer大模型、扩散模型、BEV感知等基本概念,并具备概率论、线性代数及Python和PyTorch编程基础 [14]