VideoCoF
搜索文档
VideoCoF:将「时序推理」引入视频编辑,无Mask实现高精度编辑与长视频外推!
机器之心· 2025-12-23 04:15
视频编辑行业技术痛点与现有方案 - 现有视频编辑模型面临精度与通用性的两难困境:专家模型精度高但依赖用户提供繁琐的Mask,通用上下文学习模型虽免Mask但在处理复杂空间关系时定位不准[7] VideoCoF框架核心创新 - 核心灵感源于大语言模型的思维链,提出Chain of Frames机制,将视频编辑过程重构为“看-推理-编辑”三个阶段,使模型能主动建立编辑指令与画面区域的对应关系,实现无需Mask的高精度编辑[5][6][8] - 引入独特的时序RoPE对齐策略,巧妙对齐原视频与编辑视频的时间索引,并将推理帧时间索引设为0,实现了“训练短视频,推理长视频”的能力,支持远超训练长度的视频处理且保持动作流畅[11][16] 模型性能与数据效率 - 模型仅使用50k视频对进行微调,数据量仅为基线模型ICVE的1/20,后者依赖100万视频预训练加15万微调数据[12][14][17] - 在多项测评中取得SOTA效果:指令遵循得分高达8.97,显著优于ICVE的7.79和VACE的7.47;编辑成功率高达76.36%,大幅领先商业模型Lucy Edit的29.64%和ICVE的57.76%[14][18][19] 关键技术验证与设计细节 - 消融实验证明显式时序推理是关键:引入CoF机制后,指令遵循能力提升近1分,成功率提升10%以上[20][22][24] - 推理帧格式设计至关重要:采用透明度渐变的灰色掩码作为推理帧,相比静态红/黑掩码,将指令遵循得分从7.5/7.8大幅提升至8.97[21][25][26] 应用场景与行业影响 - 展现了强大的通用编辑能力,支持多实例移除、物体添加、多实例物体替换及局部风格迁移等多种任务[27][29] - 该工作证明了“更好的推理能力优于更多的数据”,为视频生成与编辑研究提供了低成本、高性能、支持长视频的新思路[28]