CamCloneMaster
搜索文档
SIGGRAPH Asia 2025|电影级运镜一键克隆!港中文&快手可灵团队发布CamCloneMaster
机器之心· 2025-10-22 06:32
核心观点 - 提出了一种名为CamCloneMaster的全新运镜可控视频生成框架,通过“参考即用”范式,无需依赖易出错的相机参数,即可从参考视频中直接“克隆”相机运动并应用于新内容 [3] - 该框架设计简洁高效,通过Token拼接策略,在单个模型内统一实现了相机可控的图生视频和视频重运镜两大任务 [8][9] - 构建并开源了首个大规模相机运镜克隆数据集,包含115万数据对和39.1万个视频,为相关研究提供了宝贵资源 [3][13] 技术框架与创新点 - 创新性地引入了一种无需相机参数的参考式控制范式,用户仅需提供一段参考视频即可直观控制生成视频的镜头运动 [9] - 框架核心算法简单有效:将相机运动参考视频和可选内容参考视频通过3D VAE编码器转换为潜在Tokens,随后与目标视频的噪声Tokens在时间维度直接拼接,送入Diffusion Transformer处理 [11] - 该统一框架避免了额外的控制模块,参数效率极高,同时支持相机可控的图生视频和视频重运镜任务 [9][11] 数据集构建 - 使用虚幻引擎5构建了高质量合成数据集Camera Clone Dataset,规模宏大,包含115万数据对和39.1万个视频 [3][11][13] - 数据集覆盖40个不同的3D场景、3.91万个机位点和9.77万条多样化的相机轨迹,相机轨迹涵盖从简单平移、旋转到复杂组合路径 [3][13] - 数据集关键特性是提供了大量三元组视频,包括运镜参考视频、内容参考视频以及目标视频 [13] 性能表现 - 在定量实验中,CamCloneMaster在相机可控的图生视频任务上,其旋转误差为1.49,平移误差为2.37,相机运动一致性得分为3.50,均显著优于对比方法 [14] - 在视频重运镜任务上,其旋转误差为1.36,平移误差为2.02,相机运动一致性得分为3.05,同样表现最优 [14] - 在生成视频的视觉质量指标上,图生视频任务的FVD为993.06,FID为99.96;视频重运镜任务的FVD为678.06,FID为60.03,均优于当前SOTA方法 [14] - 在动态质量和时序连贯性等主观评价指标上,CamCloneMaster也获得了最高分,分别为94.29和92.78 [14]