Workflow
登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式,在视频与激光雷达指标上达到SOTA水平
机器之心·2025-09-28 04:50

技术突破 - 提出业内首个无需占用网格(OCC)引导的多模态图像-点云联合生成框架Genesis 通过两阶段架构实现逼真的自动驾驶场景生成 第一阶段基于DiT扩散模型学习环视图特征 第二阶段转换到鸟瞰图特征空间并结合条件学习点云特征[2][4] - 引入DataCrafter模块 基于视觉语言模型(VLM)提供场景级与实例级结构化语义描述 通过多视角一致性处理和冗余消除生成层次化场景描述 包括全局场景语境和物体实例的类别 边界框及详细描述[10][13][18] - 在nuScenes基准测试中达到当前最先进水平 视频生成指标FVDmulti为83.10 FIDmulti为14.90(无首帧条件) LiDAR生成指标Chamfer distance在1秒预测时达到0.611 较之前最佳结果提升21%[4][26][27] 架构设计 - 视频生成分支采用3D-VAE编码与DiT骨干网络 通过注意力机制融合场景布局和语言描述 创新性引入YOLOv8x-Pose检测行人姿态增强动态场景语义表达[19] - 激光雷达生成分支通过点云自动编码器将稀疏点云体素化为BEV网格 采用Swin Transformer压缩特征 结合NeRF渲染模块重建点云 并通过时空扩散模块集成跨模态语义条件[23] - 通过LSS算法将RGB图像转换为BEV特征作为点云生成条件 强化模态间一致性 无需依赖占用网格或体素等中间表示[10][23] 性能表现 - 在无首帧条件设定下 FVDmulti指标为83.10 优于DriveDreamer-2的105.10 在有首帧条件设定下 FVDmulti进一步降至16.95 与MiLA的18.20相当[26] - LiDAR生成在3秒预测时Chamfer distance为0.633 较HERMES的1.17降低45% 在真实图像和生成图像条件下均保持优异性能[27] - 下游任务测试显示 生成数据使BEVFusion 3D目标检测的mAP提升0.91至67.78 NDS提升1.48至71.13 多模态联合生成带来最高增益[29][30] 应用价值 - 解决现有方法依赖昂贵OCC标签的问题 降低工业应用成本 同时突破单模态生成局限 实现视觉与几何模态的深度协同[7][8] - 结构化语义引导生成过程提升输出可控性和可解释性 生成场景具备高度时空连贯性与语义保真度 满足高阶自动驾驶数据需求[10][22] - 为自动驾驶提供多样化 高拟真度的合成数据 支持3D目标检测等下游感知任务性能提升 证明多模态生成的互补优势[30]