LongVGenBench

搜索文档
Sora没做到的,LongVie框架给解决了,超长视频生成SOTA
机器之心· 2025-08-20 09:47
视频生成技术现状与挑战 - 视频生成技术在过去两年迎来爆发式进步,已能生成几十秒的高质量短片 [2] - 生成时长超过1分钟、内容与运动可控、风格统一的超长视频仍面临巨大挑战 [2] LongVie框架联合研究 - 上海人工智能实验室联合南京大学、复旦大学、南洋理工大学S-Lab、英伟达等机构提出LongVie框架 [3] - 系统性解决可控长视频生成中的核心难题 [3] 生成长视频的技术难点 - 时序不一致问题:前后画面细节与内容不连贯,出现闪烁等现象 [8] - 视觉退化问题:随时长增长出现颜色漂移、清晰度下降等问题 [8] 时序一致性解决方案 - 控制信号全局归一化:在全片段范围内统一归一化控制信号,显著提升跨片段拼接一致性 [10] - 统一噪声初始化:各片段共享同一初始噪声,从源头对齐不同片段的生成分布 [11] 视觉退化解决方案 - 融合密集控制信号(如深度图)与稀疏控制信号(如关键点)提供多模态精细控制 [16] - 引入退化感知训练策略,在更贴近长序列退化分布的条件下训练模型 [16] LongVie框架工作流程 - 先将跨片段的稠密与稀疏控制视频做全局归一化 [20] - 为所有片段采用统一的噪声初始化 [20] - 将全局归一化后的控制信号、上一片段的末帧与文本提示送入模型生成当前片段 [20] 控制信号融合优化 - 团队对比测试标准ControlNet和两种变体 [22] - 变体(c)效果更好、训练更稳定,最终被采纳 [22] 长视频生成应用场景 - 支持视频编辑:对长视频进行一致性的内容修改与编辑 [23] - 支持风格迁移:对整段长视频执行统一且时序连贯的风格迁移 [23] - 支持Mesh-to-Video:从三维体素出发生成逼真的长视频 [23] 评测基准建立 - 提出LongVGenBench基准数据集,包含100个时长超过1分钟的高分辨率视频 [25] - 首个专为超长视频生成设计的基准数据集,旨在推动系统研究与公平评测 [25] 性能表现数据 - LongVie在多项指标上优于现有方法,获得最高用户偏好度 [28] - 在视觉质量方面得分4.387,提示视频一致性得分4.471,条件一致性得分4.282 [28] - 颜色一致性得分4.298,时序一致性得分4.365,均显著高于对比方法 [28] - 在SSIM+LPIPSJ指标上达到0.557,明显优于CogVideoX的0.374和StreamingT2V的0.360 [28]