Workflow
CineCtrl
icon
搜索文档
人人都是导演:CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制
机器之心· 2025-12-20 07:00
核心观点 - 华中科技大学、南洋理工大学、商汤科技和上海人工智能实验室团队推出了CineCtrl,这是首个统一的视频摄影控制视频到视频框架,能够对输入视频的相机外参轨迹与摄影效果进行独立、精细、协调的控制,解决了现有模型难以兼顾“运镜”与“摄影美学”精确控制的问题 [2][8] 技术方案与创新 - CineCtrl基于Wan2.1基模型扩展,通过解耦交叉注意力机制,使用两个分支分别编码相机外参和摄影效果控制信号,有效防止了多控制信号共同控制时的效果耦合问题 [10][11] - 控制信号包括光圈大小、聚焦位置、焦距、快门速度和色温,并归一化到用户友好的[0, 1]或[-1, 1]范围,便于用户直观调整 [10] - 为构建训练数据,团队开发了摄影效果物理模拟器来生成精确的视频对,并从电影源等数据中采集真实视频片段,最终构建了包含20万视频片段、总计288.4小时的大规模数据集 [14][15][17] 性能表现 - 在对比实验中,CineCtrl在摄影效果控制准确性上显著领先于多种基线方法,例如在散景、变焦、曝光和色彩控制的相关系数上分别达到0.5504、0.4550、0.5117和0.5176 [20][21] - 在视频质量指标上,CineCtrl在美学成像质量、时间质量、运动平滑度、主体一致性和背景一致性等多个维度上表现优异或达到最佳 [21] - 消融实验表明,解耦交叉注意力机制、引入真实数据集以及特定的散景数据合成策略对模型性能提升至关重要,例如,移除解耦机制会使散景控制相关系数从0.5504降至0.4201 [22] 应用前景 - 该技术能够将普通视频通过后期调整镜头运动及散景、曝光、色温、焦距等摄影效果,提升至具有美学价值的电影级别视频 [6] - 该功能在电影制作和AR/VR内容生成领域具有很大的应用前景 [6] - 未来研究方向包括在框架中融入高级美学知识,以自动确定最佳相机轨迹和摄影效果,为自动化、电影级视频生成铺平道路 [24]