Workflow
世界模型算法
icon
搜索文档
工业界大佬带队!三个月搞定自动驾驶世界模型......
自动驾驶之心· 2025-12-22 09:20
世界模型技术趋势与行业应用 - 世界模型是自动驾驶行业当前确定的技术趋势,可应用于数据生成和闭环仿真等领域 [1] - 特斯拉基于前馈高斯溅射技术构建世界仿真器,而小米和理想则利用世界模型进行长尾数据生成和端到端闭环仿真 [1] - 市场对掌握世界模型技术的人才需求预计在明年将更加旺盛 [1] 课程核心内容与结构 - 课程为自动驾驶领域首个面向端到端技术的进阶实战教程,旨在推动端到端技术在工业界的落地 [9] - 课程内容涵盖通用世界模型、视频生成、OCC生成等核心算法,并解析特斯拉世界模型、李飞飞团队Marble等前沿工作 [1] - 课程采用离线视频教学,配合VIP群答疑及三次线上答疑,学习周期预计为两个半月 [13] 详细课程大纲 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例及不同技术流派(如纯仿真、仿真+规划、生成传感器输入等),并介绍相关数据集与评测标准 [4] - **第二章:世界模型的背景知识** 深入讲解世界模型的技术栈,包括场景表征、Transformer、BEV感知等基础知识,这些内容是求职面试中的高频技术关键词 [4][5] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细解析李飞飞团队Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型以及特斯拉ICCV分享的世界模型模拟器等 [5] - **第四章:基于视频生成的世界模型** 重点讲解视频生成类世界模型算法,涵盖Wayve的GAIA-1 & GAIA-2、上海交通大学的UniScene、商汤的OpenDWM、中科大的InstaDrive等经典与前沿工作,并以商汤开源的OpenDWM进行实战 [6] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,讲解三篇核心论文并进行一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端自动驾驶 [7] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验、行业痛点、技术期望以及相关岗位的面试准备要点 [8] 课程关键技术覆盖 - 课程将复习Transformer并扩展至视觉Transformer,讲解CLIP和LLaVA等多模态大模型基础 [10] - 详细讲解BEV感知和占用网络,扩散模型理论及其在多模轨迹输出中的应用,以及闭环仿真中的NeRF和3DGS技术 [10] - 同时覆盖其他生成式模型,如VAE、GAN以及Next Token Prediction等方法 [10] - OCC生成类世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科的HERMES以及西交的II-World等核心工作 [11] 面向人群与学习收获 - 课程面向具备一定自动驾驶领域基础,熟悉Transformer大模型、扩散模型、BEV感知等基本概念,并拥有概率论、线性代数及Python、PyTorch编程基础的学员 [12] - 学员需自备GPU,推荐算力在RTX 4090及以上 [12] - 课程期望使学员在学完后能达到具备1年左右经验的世界模型自动驾驶算法工程师水平 [12] - 学员将掌握世界模型技术进展,对BEV感知、多模态大模型等关键技术有更深刻理解,能够复现II-World、OpenDWM等主流算法框架,并具备设计自有世界模型并将其应用于项目的能力 [12]