多视角图像生成

搜索文档
上海期智&清华!BEV-VAE:首个自监督BEV视角的VAE,从图像到场景生成跃迁~
自动驾驶之心· 2025-07-08 12:45
核心观点 - BEV-VAE通过结构化BEV隐变量空间实现多视角图像生成与操控,显著提升自动驾驶场景生成的空间一致性与可控性 [2][4][5] - 该方法突破传统以图像为单位的生成范式,直接以三维场景为单位建模,支持任意相机配置下的新视角合成与对象编辑 [5][6][13] - 在nuScenes和AV2数据集上验证显示,隐变量维度提升至32时PSNR达26.32/26.68,SSIM达0.7455/0.8004,优于SD-VAE基准 [22][23] 技术架构 双阶段设计 - **重建阶段**:通过Transformer编码器将多视角图像压缩为BEV隐变量,解码器重建时保持空间一致性,隐变量维度从4到32逐步提升信息容量 [7][10][12] - **生成阶段**:采用Diffusion Transformer在BEV空间去噪,通过Classifier-Free Guidance实现可控生成,支持15°视角旋转调整 [8][11][13] 关键组件 - 编码器包含图像/场景/状态三模块,解码器通过对抗损失优化生成质量,联合训练KL散度/重建/对抗损失 [7][8] - 判别器采用StyleGAN结构,确保生成图像真实度,消融实验显示隐变量维度32时FID降至13.72/3.02 [22][25] 性能表现 数据集对比 - **nuScenes**:155K×6视图训练,隐变量32维时MVSC+指标达0.9291,接近SD-VAE水平但训练数据量仅0.1% [22][23] - **AV2**:224K×7视图训练,同参数下PSNR提升3.19,验证数据规模规律(Scale Law)的有效性 [22][28] 基准测试 - 在零额外先验条件下,BEV-VAE w/DiT的FID为21.14,显著缩小与基于Stable Diffusion微调方法的差距(DriveWM为12.99) [25] - 对象编辑实验中,移除特定车辆后生成图像无空洞,证明三维结构建模能力 [18][19][20] 应用优势 - **跨平台兼容**:解耦空间建模与生成过程,适配不同相机数量/位姿配置,实现零成本算法迁移 [5][28] - **效率提升**:相比传统数据采集,可低成本生成场景变体(如车辆增减),加速端到端模型训练 [4][18] - **扩展性**:BEV隐变量天然支持NeRF、Occupancy等三维任务,降低世界模型构建门槛 [28][31]