Workflow
GeoDrive
icon
搜索文档
拆解理想在世界模型方向的工作
自动驾驶之心· 2026-01-05 09:30
理想汽车的世界模型技术布局 - 公司对世界模型的定义是“重建+生成”,利用3DGS技术重建自动驾驶场景,再通过生成方法实现闭环仿真或场景生成 [2] - 公司已有一系列相关研究成果,包括中稿ICCV 2025的Hierarchy UGP(场景重建)、StyledStreets(多风格场景生成)、World4Drive(结合驾驶意图的规划)以及中稿ACMMM 2025的OmniGen(统一生成视觉与激光雷达)等 [2] - 公司目前未深入利用世界模型的预测能力直接输出车辆轨迹,但已进行相关探索(如World4Drive)[3] 行业对世界模型的共识与现状 - 业内普遍认为世界模型是围绕视频搭建的时空认知系统,通过跨模态预测和重建学习时空与物理规律 [3] - 行业内的世界模型技术主要围绕3DGS重建、视频/OCC生成以及激光雷达点云生成展开 [3] - 特斯拉等领先公司及许多中游厂商均在布局世界模型的预研和落地 [3] - 但行业对世界模型的定义仍较模糊,存在“生成即世界模型”或“生成+重建即世界模型”等不同理解 [4] 自动驾驶世界模型课程内容框架 - 课程第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派(如纯仿真、仿真+规划、生成传感器输入等)[7] - 第二章讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些是求职面试的高频技术关键词 [7][8] - 第三章探讨通用世界模型,涵盖Marble、Genie 3、JEPA、DriveVLA-W0及特斯拉的世界模型模拟器等热门工作 [8] - 第四章聚焦视频生成类世界模型,讲解GAIA-1 & GAIA-2、UniScene、OpenDWM、InstaDrive等经典与前沿工作,并以商汤OpenDWM进行实战 [9] - 第五章聚焦OCC生成类世界模型,讲解OccWorld、OccLLaMA、HERMES、II-World等论文并进行项目实战,此类方法易于扩展至轨迹规划 [10][14] - 第六章分享工业界应用经验,包括行业痛点、期望解决的问题以及相关岗位的面试准备 [11] 课程的技术基础与学习目标 - 课程技术背景知识涵盖Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS以及VAE、GAN等其他生成式模型 [13] - 课程面向具备一定自动驾驶基础、了解Transformer/扩散模型/BEV等概念、有概率论与线性代数基础以及Python/PyTorch编程能力的学员 [15] - 课程期望学员学完后能达到约1年经验的自动驾驶算法工程师水平,掌握世界模型技术进展,能复现II-World、OpenDWM等主流框架,并应用于实际项目设计 [15] - 课程为离线视频教学,开课时间为1月1日,预计两个半月结课,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [16] - 各章节按计划解锁,例如第一章于12月10日解锁,第六章于3月1日解锁 [17]
理想新一代世界模型首次实现实时场景编辑与VLA协同规划
理想TOP2· 2025-06-11 02:59
核心观点 - GeoDrive是由北京大学、伯克利人工智能研究院与理想汽车联合开发的自动驾驶世界模型系统,首创性地将三维点云渲染过程纳入生成范式,显著提升空间一致性与可控性 [11] - 模型在轨迹跟踪误差上降低42%,视频质量指标(LPIPS/PSNR/SSIM/FID/FVD)全面超越Vista等基线模型,且仅需5小时训练数据(对比基线1740小时) [19][34] - 首次实现实时视觉输入与预测建模的融合,构建支持VLA(视觉-语言-动作)协同规划的交互式仿真环境 [9][10] 技术创新 几何驱动架构 - 采用MonST3R网络从单帧RGB图像精准估计点云和相机位姿,在动态城市场景中减少38%姿态误差 [26][27] - 通过投影几何技术将3D点云沿用户指定轨迹渲染,使用z-buffering处理遮挡,生成几何引导信号 [28][29] 动态编辑机制 - 突破静态渲染局限,通过2D边界框注释调整可移动物体位置,增强多车交互场景的动态合理性 [12][31] - 设计物理引导编辑模块,在明确运动约束下变换代理外观,确保物理合理的交互 [18][31] 训练优化 - 采用冻结主干模型+轻量化适配器架构,仅需5小时训练数据即达到SOTA性能(对比DriveDreamer等模型需1740小时) [8][34][37] - 双分支控制策略:条件编码器提取渲染潜变量特征,以结构化方式选择性融合进冻结DiT主干,保持3D结构保真度 [33] 性能表现 定量指标 - 在NuScenes数据集上,FID指标达4.1(对比Vista 6.6/GEM 10.5),FVD指标61.6(对比Vista 167.7) [37] - 新视角合成任务中,左移3米轨迹的FID 67.13/FVD 1245.23,显著优于StreetGaussian的63.84/1438.89 [40] 定性优势 - 生成视频的光流误差(ADE)仅1.62×10²,较Vista(2.77×10²)降低41.5% [34] - 在遮挡处理和动态物体交互合理性上优于基线,避免Vista模型出现的轨迹错位和碰撞问题 [35][36] 行业意义 - 首次实现驾驶世界模型中实时场景编辑与VLA协同规划,支持动态物体插入/替换/运动控制等交互功能 [9][10] - 为自动驾驶仿真测试提供高保真环境生成方案,解决传统方法在3D几何一致性和遮挡处理上的缺陷 [14][17] - 验证了轻量化适配器+冻结主干的训练范式在数据效率上的突破,降低行业研发门槛 [8][34]