Workflow
语义可控视频生成
icon
搜索文档
视频生成Prompt何须仅是文字!字节&港中文发布Video-As-Prompt
机器之心· 2025-11-18 05:08
核心技术框架 - 提出“Video-As-Prompt”框架,引入“视频参考”新范式,用户提供参考视频和语义描述即可直接克隆指定语义应用于新内容,实现抽象语义下可控视频生成范式的统一 [3] - 使用参考视频作为统一的抽象语义条件表征,无需为不同语义设计专门编码模型,提升模型通用性和可扩展性,降低使用难度 [9] - 采用Mixture-of-Transformers架构,包含一个冻结的视频扩散Transformer和一个可训练并行专家Transformer,通过连接两部分的Q/K/V并运行全注意力机制实现双向信息融合和上下文控制 [11][13] 功能与应用 - 支持四大类复杂语义的克隆和迁移:复杂概念、艺术风格、指定动作和相机运镜 [5] - 能够用包含不同或相同语义的参考视频驱动同一张图片,也能用同一个参考视频驱动不同图片 [5] - 具备结合文本实现语义编辑的能力 [7] - 支持由新语义参考引导的零样本生成,即使该语义未在训练数据中出现 [18][19] 性能与数据 - 构建并开源VAP-Data数据集,是目前用于语义可控视频生成的最大开源数据集,包含超过100个语义条件下的100K个精选配对视频样本 [3][15] - 模型性能在整体视频质量、文本一致性、语义一致性和人工偏好上与闭源模型Kling/Vidu相当,并优于其他开源基线 [18] - 是首个针对所有语义条件统一控制且可扩展和推广的模型 [18] 行业影响 - 其统一的参考视频建模框架验证了基于参考视频的可控生成思路的巨大潜力 [20] - 开源的大规模视频参考生成数据集有望推动AIGC视频创作进入生成更可控、语义更丰富的新阶段 [21]