AIGC视频创作
搜索文档
视频生成Prompt何须仅是文字!字节&港中文发布Video-As-Prompt
机器之心· 2025-11-18 05:08
核心技术框架 - 提出“Video-As-Prompt”框架,引入“视频参考”新范式,用户提供参考视频和语义描述即可直接克隆指定语义应用于新内容,实现抽象语义下可控视频生成范式的统一 [3] - 使用参考视频作为统一的抽象语义条件表征,无需为不同语义设计专门编码模型,提升模型通用性和可扩展性,降低使用难度 [9] - 采用Mixture-of-Transformers架构,包含一个冻结的视频扩散Transformer和一个可训练并行专家Transformer,通过连接两部分的Q/K/V并运行全注意力机制实现双向信息融合和上下文控制 [11][13] 功能与应用 - 支持四大类复杂语义的克隆和迁移:复杂概念、艺术风格、指定动作和相机运镜 [5] - 能够用包含不同或相同语义的参考视频驱动同一张图片,也能用同一个参考视频驱动不同图片 [5] - 具备结合文本实现语义编辑的能力 [7] - 支持由新语义参考引导的零样本生成,即使该语义未在训练数据中出现 [18][19] 性能与数据 - 构建并开源VAP-Data数据集,是目前用于语义可控视频生成的最大开源数据集,包含超过100个语义条件下的100K个精选配对视频样本 [3][15] - 模型性能在整体视频质量、文本一致性、语义一致性和人工偏好上与闭源模型Kling/Vidu相当,并优于其他开源基线 [18] - 是首个针对所有语义条件统一控制且可扩展和推广的模型 [18] 行业影响 - 其统一的参考视频建模框架验证了基于参考视频的可控生成思路的巨大潜力 [20] - 开源的大规模视频参考生成数据集有望推动AIGC视频创作进入生成更可控、语义更丰富的新阶段 [21]
SIGGRAPH Asia 2025|电影级运镜一键克隆!港中文&快手可灵团队发布CamCloneMaster
机器之心· 2025-10-22 06:32
核心观点 - 提出了一种名为CamCloneMaster的全新运镜可控视频生成框架,通过“参考即用”范式,无需依赖易出错的相机参数,即可从参考视频中直接“克隆”相机运动并应用于新内容 [3] - 该框架设计简洁高效,通过Token拼接策略,在单个模型内统一实现了相机可控的图生视频和视频重运镜两大任务 [8][9] - 构建并开源了首个大规模相机运镜克隆数据集,包含115万数据对和39.1万个视频,为相关研究提供了宝贵资源 [3][13] 技术框架与创新点 - 创新性地引入了一种无需相机参数的参考式控制范式,用户仅需提供一段参考视频即可直观控制生成视频的镜头运动 [9] - 框架核心算法简单有效:将相机运动参考视频和可选内容参考视频通过3D VAE编码器转换为潜在Tokens,随后与目标视频的噪声Tokens在时间维度直接拼接,送入Diffusion Transformer处理 [11] - 该统一框架避免了额外的控制模块,参数效率极高,同时支持相机可控的图生视频和视频重运镜任务 [9][11] 数据集构建 - 使用虚幻引擎5构建了高质量合成数据集Camera Clone Dataset,规模宏大,包含115万数据对和39.1万个视频 [3][11][13] - 数据集覆盖40个不同的3D场景、3.91万个机位点和9.77万条多样化的相机轨迹,相机轨迹涵盖从简单平移、旋转到复杂组合路径 [3][13] - 数据集关键特性是提供了大量三元组视频,包括运镜参考视频、内容参考视频以及目标视频 [13] 性能表现 - 在定量实验中,CamCloneMaster在相机可控的图生视频任务上,其旋转误差为1.49,平移误差为2.37,相机运动一致性得分为3.50,均显著优于对比方法 [14] - 在视频重运镜任务上,其旋转误差为1.36,平移误差为2.02,相机运动一致性得分为3.05,同样表现最优 [14] - 在生成视频的视觉质量指标上,图生视频任务的FVD为993.06,FID为99.96;视频重运镜任务的FVD为678.06,FID为60.03,均优于当前SOTA方法 [14] - 在动态质量和时序连贯性等主观评价指标上,CamCloneMaster也获得了最高分,分别为94.29和92.78 [14]