从单张图像生成灵活视角3D场景技术
搜索文档
单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节
量子位· 2025-03-28 10:01
技术核心与创新点 - 提出FlexWorld方法,通过合成和整合新的3D内容,逐步构建并扩展一个持久的3D表示,以解决从单张图像生成灵活视角3D场景的高度不适定问题[3][4] - 方法包含两个核心组件:一个强大的视频到视频扩散模型,用于从粗糙场景渲染生成完整的视角图像;一个几何感知的3D场景扩展过程,用于提取并整合新的3D内容到全局结构中[5] - 采用多段视频逐步构建具有更大可探索区域的场景,在内容不足区域通过微调的视频模型补完场景视频,并通过场景融合阶段优化整体场景表征[11] 技术实现细节 - 视频模型选用CogVideoX-5B-I2V作为基座模型进行微调,构建了基于同一场景密集重建提供的深度信息的训练对,使模型在推理时能支持更大转角的相机运动[13] - 场景融合过程一方面通过高斯优化将多段视频内容融合进持久化3D表征,另一方面通过密集立体模型和深度融合策略,将视频关键帧作为初始三维高斯加入表征以充分利用先验[14] - 场景扩展过程通过相机轨迹规划、场景整合和细化步骤,逐步从单张图像构建出支持360°旋转和缩放等灵活视角观察的3D场景[5] 性能与应用前景 - FlexWorld在生成大幅度相机变化控制下的视频中展现出出色的视觉质量和较高的空间一致性,生成的视频可直接用于3D重建[6][15] - 该方法能够生成支持360度旋转、前进和后退等视角进行探索的3D场景,在虚拟现实内容创作和3D旅游等领域具有重要应用潜力[8][15] - 该技术在考古保护、自主导航等直接获取3D数据成本高昂或不可行的领域具有重要应用价值[1]