文章核心观点 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径,当前行业研究主要聚焦于生成和重建两大领域,并广泛应用于闭环仿真以应对Corner Case成本过高的问题 [2] - 行业正经历风格转换,世界模型相关研究呈现爆发式增长,为应对此趋势,推出了聚焦通用世界模型、视频生成、OCC生成等算法的进阶实战课程 [2] 课程内容与结构 - 第一章:世界模型介绍 涵盖世界模型与端到端自动驾驶的联系、发展历史、应用案例,并介绍纯仿真、仿真+规划、生成传感器输入、生成感知结果等不同流派及其在行业中的应用环节和解决的问题 [5] - 第二章:世界模型的背景知识 讲解世界模型的基础技术栈,包括场景表征、Transformer、BEV感知等,为后续学习奠定基础,这些内容是当前世界模型求职面试的高频技术关键词 [5][6] - 第三章:通用世界模型探讨 聚焦通用世界模型及近期热门工作,详细解析李飞飞团队Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器等模型的核心技术与设计理念 [6] - 第四章:基于视频生成的世界模型 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上海交大CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive等经典与前沿工作,并以商汤开源的OpenDWM进行实战展开 [7] - 第五章:基于OCC的世界模型 聚焦OCC生成类世界模型算法,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端自动驾驶 [8] - 第六章:世界模型岗位专题 基于前五章算法基础,分享工业界应用经验,探讨行业痛点、世界模型需解决的问题,以及相关岗位面试准备与公司关注重点 [9] 课程技术覆盖与学习目标 - 技术覆盖 课程内容涉及Transformer、视觉Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN、Next Token Prediction等多种生成式模型与关键技术 [11] - 核心算法案例 课程涵盖清华OccWorld、复旦OccLLaMA、华科ICCV'25的HERMES、西交II-World等具体算法工作 [12] - 学习目标 学员学完后预期能达到约1年经验的世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,深刻理解BEV感知、多模态大模型等关键技术,能够复现II-World、OpenDWM等主流算法框架,并应用于实际项目设计 [13] 课程安排与面向人群 - 课程安排 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日,各章节按计划从12月10日至次年3月1日逐步解锁 [14][15] - 面向人群 课程面向具备一定自动驾驶领域基础、熟悉Transformer大模型、扩散模型、BEV感知等基本概念,拥有概率论与线性代数基础,以及Python和PyTorch编程能力的学员,学习需自备算力在4090及以上的GPU [13]
世界模型工作正在呈现爆发式增长
自动驾驶之心·2025-12-20 02:16