双分支扩散架构
搜索文档
相机运动误差降低40%!DualCamCtrl:给视频生成装上「深度相机」,让运镜更「听话」
机器之心· 2025-12-21 04:21
文章核心观点 - 香港科技大学、复旦大学等机构的研究团队提出了一种名为DualCamCtrl的全新端到端几何感知扩散模型框架,旨在解决现有视频生成模型在相机运动控制中缺乏显式几何理解的问题 [3] - 该模型通过创新的双分支扩散架构和语义引导互对齐机制,能够同步生成与镜头运动一致的RGB与深度序列,从而更好地解耦外观与几何建模 [3][9] - 大量实验表明,DualCamCtrl在相机运动一致性方面显著优于现有方法,相机运动误差降低超过40% [4][28] 技术架构与核心设计 - **双分支视频扩散框架**:模型采用双分支架构,一条分支生成RGB表示,另一条分支生成深度表示,两种模态通过SIGMA机制进行融合,以实现连贯的几何引导 [7][9] - **语义引导互对齐机制**:SIGMA机制采用语义引导的双向设计,浅层以RGB特征锚定语义结构,深层则引入深度反馈优化几何表达,以促进RGB与深度模态的有效协同 [11][17] - **分阶段训练策略**:模型采用两阶段训练策略,第一阶段为解耦训练阶段,使RGB与深度分支分别专注学习外观与几何表征;第二阶段为融合训练阶段,引入融合模块实现跨模态交互与联合优化 [11][18][21] 性能表现与实验结果 - **定性分析**:在相同输入条件下,DualCamCtrl在相机运动的对齐效果和视频生成的视觉效果上均显著优于现有先进方法 [23][26] - **定量分析(图像到视频)**:在RealEstate10K数据集上,DualCamCtrl的FVD指标为80.38,FID指标为49.85,均显著优于对比方法MotionCtrl(FVD: 137.4, FID: 71.70)和CameraCtrl(FVD: 118.7, FID: 69.90)[27] - **定量分析(文本到视频)**:在RealEstate10K数据集上,DualCamCtrl的FVD指标为408.1,优于AC3D的415.6、CameraCtrl的426.8和MotionCtrl的506.9;其CLIPSIM指标为0.3154,也优于其他对比方法 [27]