驾驶世界模型
搜索文档
理想提出首个包含自车和他车轨迹的世界模型
理想TOP2· 2025-11-23 11:56
技术模型创新 - 公司首次提出包含自车和他车轨迹的驾驶世界模型,旨在更逼真地模拟自车与驾驶场景的交互,并能通过改变自车-他车轨迹生成多样化的新颖场景[1][8] - 为解决缺乏交互性、特征分布不匹配和空间映射困难三大缺陷,公司提出EOT-WM模型,将轨迹点投影到图像坐标系并在空白视频上绘制轨迹,生成用于学习的轨迹视频,实现统一视觉模态[6] - 采用时空变分自编码器对场景视频和轨迹视频进行编码,获得共享特征空间的场景视频隐变量和轨迹隐变量,确保时空对齐[7] 模型架构与训练 - 预训练阶段在云端训练32B视觉语言基座模型,包含3D视觉、高清2D视觉以及驾驶相关语料,随后蒸馏成3.2B的MoE模型以适应车端算力[1] - 后训练阶段引入action将模型转化为视觉语言行动模型,参数量接近4B,采用短链条思维链并利用扩散模型对未来4-8秒的轨迹和环境进行预测[1] - 强化学习阶段包含人类反馈强化学习和不依赖人类反馈的纯强化学习,基于舒适性、无碰撞、遵守交规三大指标自我进化,目标驾驶水平超越人类[1] 模型控制与评估 - 设计注入轨迹的扩散Transformer,将轨迹隐变量提供的运动引导集成到视频隐变量中,以便更精确地对噪声视频隐变量进行去噪[7][9] - 整个模型可在文本和轨迹控制下基于给定初始帧预测未来帧,并提出基于控制隐变量相似度的指标用于比较预测轨迹隐变量与真值轨迹隐变量[7][9] - 与GEM模型和英伟达Cosmos模型对比,指出GEM模型使用未来物体特征和人体姿态不切实际,Cosmos模型参数量达70亿以上且推理训练成本高昂[5] 研究进展与发布 - 驾驶世界模型论文第一版于2025年3月12日发布,AAAI 2026会议录用版于2025年11月19日发布[2] - 论文第三版于2025年7月31日发布,新增作者并担任项目负责人,同时移除另一位作者,增加对GEM模型和英伟达Cosmos模型的讨论[5] - 论文第四版主要根据AAAI排版要求进行微调和双栏排版,各项量化实验结果与第一版保持一致[5]
ICCV‘25 | 华科提出HERMES:首个统一驾驶世界模型!
自动驾驶之心· 2025-07-25 10:47
核心观点 - 提出首个统一驾驶世界模型HERMES,实现3D场景理解与未来场景生成的协同优化 [1][3] - 通过BEV表示整合多视图空间信息,引入"世界查询"机制桥接理解与生成任务 [3][8] - 在nuScenes和OmniDrive-nuScenes数据集上,生成任务误差降低32.4%,理解任务CIDEr指标提升8.0% [4] 技术框架 核心创新 - BEV-based世界分词器:将多视图图像压缩为统一BEV特征,突破LLM的token长度限制并保留空间关系 [5] - 世界查询机制:从BEV特征初始化查询,通过LLM增强后与未来生成模块交互,实现知识注入 [8][15] - 统一模块设计:共享BEV特征与渲染器,通过"当前到未来链接"模块实现理解与生成的深度协同 [15] 关键组件 - **世界分词器**:CLIP图像编码器+BEVFormer处理多视图图像,输出压缩BEV特征 [14] - **渲染器**:基于隐式SDF场的可微分体渲染,通过三线性插值预测射线深度 [11][14] - **LLM处理**:BEV特征投影至语言空间,自回归完成场景描述/VQA等理解任务 [15] 性能表现 定量结果 - 生成任务:3秒内Chamfer距离显著低于4D-Occ和ViDAR [17] - 理解任务:CIDEr指标超过OmniDrive等方法8.0% [17] - 消融实验:世界查询使3秒点云预测误差降低10% [20] 参数优化 - BEV特征尺寸:50×50较25×25在CIDEr和0秒生成任务上分别提升7.3%和10% [23] - 查询初始化:BEV特征最大池化初始化的查询表现最优 [21] 应用场景 - 复杂场景中准确生成未来点云演化(如车辆运动跟踪) [24] - 精准理解场景语义(如识别商业标志物) [24] - 当前局限:复杂转向、遮挡及夜间场景仍有挑战 [24] 行业资源 - 覆盖30+自动驾驶技术栈学习路线(BEV感知、Occupancy、多传感器融合等) [25] - 提供端到端自动驾驶、大模型、仿真测试等专业课程 [28]