Workflow
RLGF
icon
搜索文档
拆解理想在世界模型方向的工作
自动驾驶之心· 2026-01-05 09:30
理想汽车的世界模型技术布局 - 公司对世界模型的定义是“重建+生成”,利用3DGS技术重建自动驾驶场景,再通过生成方法实现闭环仿真或场景生成 [2] - 公司已有一系列相关研究成果,包括中稿ICCV 2025的Hierarchy UGP(场景重建)、StyledStreets(多风格场景生成)、World4Drive(结合驾驶意图的规划)以及中稿ACMMM 2025的OmniGen(统一生成视觉与激光雷达)等 [2] - 公司目前未深入利用世界模型的预测能力直接输出车辆轨迹,但已进行相关探索(如World4Drive)[3] 行业对世界模型的共识与现状 - 业内普遍认为世界模型是围绕视频搭建的时空认知系统,通过跨模态预测和重建学习时空与物理规律 [3] - 行业内的世界模型技术主要围绕3DGS重建、视频/OCC生成以及激光雷达点云生成展开 [3] - 特斯拉等领先公司及许多中游厂商均在布局世界模型的预研和落地 [3] - 但行业对世界模型的定义仍较模糊,存在“生成即世界模型”或“生成+重建即世界模型”等不同理解 [4] 自动驾驶世界模型课程内容框架 - 课程第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派(如纯仿真、仿真+规划、生成传感器输入等)[7] - 第二章讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些是求职面试的高频技术关键词 [7][8] - 第三章探讨通用世界模型,涵盖Marble、Genie 3、JEPA、DriveVLA-W0及特斯拉的世界模型模拟器等热门工作 [8] - 第四章聚焦视频生成类世界模型,讲解GAIA-1 & GAIA-2、UniScene、OpenDWM、InstaDrive等经典与前沿工作,并以商汤OpenDWM进行实战 [9] - 第五章聚焦OCC生成类世界模型,讲解OccWorld、OccLLaMA、HERMES、II-World等论文并进行项目实战,此类方法易于扩展至轨迹规划 [10][14] - 第六章分享工业界应用经验,包括行业痛点、期望解决的问题以及相关岗位的面试准备 [11] 课程的技术基础与学习目标 - 课程技术背景知识涵盖Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS以及VAE、GAN等其他生成式模型 [13] - 课程面向具备一定自动驾驶基础、了解Transformer/扩散模型/BEV等概念、有概率论与线性代数基础以及Python/PyTorch编程能力的学员 [15] - 课程期望学员学完后能达到约1年经验的自动驾驶算法工程师水平,掌握世界模型技术进展,能复现II-World、OpenDWM等主流框架,并应用于实际项目设计 [15] - 课程为离线视频教学,开课时间为1月1日,预计两个半月结课,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [16] - 各章节按计划解锁,例如第一章于12月10日解锁,第六章于3月1日解锁 [17]