DataCrafter - 财报，业绩电话会，研报，新闻

DataCrafter

搜索文档

登上NeurIPS，Genesis开创无需OCC引导的多模态生成新范式，在视频与激光雷达指标上达到SOTA水平

机器之心· 2025-09-28 04:50

技术突破 - 提出业内首个无需占用网格（OCC）引导的多模态图像-点云联合生成框架Genesis 通过两阶段架构实现逼真的自动驾驶场景生成第一阶段基于DiT扩散模型学习环视图特征第二阶段转换到鸟瞰图特征空间并结合条件学习点云特征[2][4] - 引入DataCrafter模块基于视觉语言模型（VLM）提供场景级与实例级结构化语义描述通过多视角一致性处理和冗余消除生成层次化场景描述包括全局场景语境和物体实例的类别边界框及详细描述[10][13][18] - 在nuScenes基准测试中达到当前最先进水平视频生成指标FVDmulti为83.10 FIDmulti为14.90（无首帧条件） LiDAR生成指标Chamfer distance在1秒预测时达到0.611 较之前最佳结果提升21%[4][26][27] 架构设计 - 视频生成分支采用3D-VAE编码与DiT骨干网络通过注意力机制融合场景布局和语言描述创新性引入YOLOv8x-Pose检测行人姿态增强动态场景语义表达[19] - 激光雷达生成分支通过点云自动编码器将稀疏点云体素化为BEV网格采用Swin Transformer压缩特征结合NeRF渲染模块重建点云并通过时空扩散模块集成跨模态语义条件[23] - 通过LSS算法将RGB图像转换为BEV特征作为点云生成条件强化模态间一致性无需依赖占用网格或体素等中间表示[10][23] 性能表现 - 在无首帧条件设定下 FVDmulti指标为83.10 优于DriveDreamer-2的105.10 在有首帧条件设定下 FVDmulti进一步降至16.95 与MiLA的18.20相当[26] - LiDAR生成在3秒预测时Chamfer distance为0.633 较HERMES的1.17降低45% 在真实图像和生成图像条件下均保持优异性能[27] - 下游任务测试显示生成数据使BEVFusion 3D目标检测的mAP提升0.91至67.78 NDS提升1.48至71.13 多模态联合生成带来最高增益[29][30] 应用价值 - 解决现有方法依赖昂贵OCC标签的问题降低工业应用成本同时突破单模态生成局限实现视觉与几何模态的深度协同[7][8] - 结构化语义引导生成过程提升输出可控性和可解释性生成场景具备高度时空连贯性与语义保真度满足高阶自动驾驶数据需求[10][22] - 为自动驾驶提供多样化高拟真度的合成数据支持3D目标检测等下游感知任务性能提升证明多模态生成的互补优势[30]