研究背景与动机 - 现有指令跟随视频编辑数据集存在规模小、编辑类型少、指令短、质量差四大问题,例如InsViE-1M、Senorita-2M、Ditto-1M仅有1-2M样本,且编辑种类有限[7] - 现有数据集的平均编辑指令长度过短,如InsViE-1M和Senorita-2M平均仅约4个单词,无法提供准确的编辑信息[8] - 通过大模型对现有数据集质量评估发现,部分数据集虽存在高质量样本,但低质量(1分)案例占比也高,导致平均质量得分偏低[9] - 目前行业缺乏大规模、高质量、多种类的指令跟随视频编辑数据集[9] OpenVE-3M数据集核心创新 - 提出了一个包含3百万(3M)样本对的大规模、高质量、多类别指令跟随视频编辑数据集OpenVE-3M[5] - 数据集分为空间对齐(6类)和非空间对齐(2类)两大类别,共8小类,覆盖了全局风格、背景更换、局部修改、局部移除、局部添加、字幕编辑、镜头多角度编辑和创意编辑[12] - 该数据集拥有最长的平均指令长度,达到40.6个单词,远高于其他数据集[8] - 数据集的视频编辑质量总平均分达到3.86分,为现有最高[12] - 构建了稳定的高质量、多类别数据构造管线,确保了编辑质量的多样性和高标准[5] OpenVE-3M数据集构建方法 - 构建流程分为三个阶段:视频预处理、基于分类法的视频编辑与指令生成、高质量视频编辑对过滤[18] - 在过滤阶段,设计了精细的数据过滤管道,包含指令遵循、一致性&细节保真度、视觉质量&稳定性三大评测指标,每项1-5分打分[26] - 以指令遵循指标为得分上限,确保编辑行为是首要评判标准[27] - 使用视觉语言模型(VLM)进行自动化打分过滤,最终选用Intern3.5-VL-38B模型,保留得分大于3分的样本[27] OpenVE-Edit模型创新与性能 - 提出了一个高效且有效的指令跟随视频编辑模型OpenVE-Edit,参数量仅为50亿(5B)[5] - 该模型在仅5B参数量下实现了当前最优性能(SoTA),超越了现有开源的140亿(14B)参数模型效果[5] - 模型创新点包括:引入多模态大模型来捕捉指令与视觉特征间的高维语义空间关系;设计了基于多任务感知的MoE-Connector模块以应对图像和视频的不同编辑类型;采用零初始化策略稳定训练[36] - 在OpenVE-Bench评测集上,OpenVE-Edit总体得分达到2.49,在5B参数量下超越了所有开源模型,接近闭源模型Runway Aleph(3.65分)的部分表现[34][37] OpenVE-Bench评测基准 - 提出了一个通用的、多类别且充满挑战的指令跟随视频编辑评测集OpenVE-Bench[5] - 该评测集包含8个类别共431条人工精心挑选的编辑对[31] - 为每个类别设计了指令一致性&细节保真度、视觉质量&稳定性三个关键评测提示,利用VLM进行自动化评分,并与人类评价高度对齐[31] 实验结果对比 - 定量对比了当前主流视频编辑开源模型(VACE、OmniVideo、InsViE、ICVE、Lucy-Edit、DITTO)和闭源模型(Runway Aleph)[33] - 闭源模型Runway Aleph在评测中表现最出色,总体得分3.65[37] - 开源模型中,参数量14B的VACE得分1.57,1.3B的OmniVideo得分1.31,5B的Lucy-Edit得分2.15,13B的ICVE得分2.07,14B的DITTO得分1.98[37] - OpenVE-Edit(5B)以2.49的总分超越了上述所有开源模型[37] - 定性对比显示,OpenVE-Edit在背景更换、局部修改等任务中,能更好地遵循指令并保持前景主体与背景的一致性,错误更少[38]
浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M
机器之心·2025-12-17 00:00