Workflow
字节Seed新模型
icon
搜索文档
用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%
搜狐财经· 2025-09-02 05:45
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 生成分钟级的长视频,只需要和短视频相当的成本? 字节Seed与斯坦福等机构的研究人员一起推出的新模型,能让长视频生成的计算量降低85%。 而且质量不减,还能够保持人物和场景的连贯性。 请看VCR: 团队认为,长视频生成本质上是一个长上下文记忆问题,将视频生成重新定义成了上下文检索任务。 为此,团队提出了一种新的稀疏注意力机制——Mixture of Contexts(MoC)——作为有效的长期记忆检索引擎。 低成本生成分钟级视频 先来看用这项技术生成的长视频效果。 首先是写实场景,这段视频长度56秒,展示的是一老一少两个男人坐在咖啡馆中交谈的场景。 从中可以看出,两个人的外貌和衣着特征在经过多次视角切换之后依然保持一致,桌子上的咖啡也是如此。 换成卡通场景,也能在长达一分半的时间之内保持前后一致性。 关键是,生成这样长时间一致的视频成本,被MoC打下了一个数量级。 使用MoC机制生成一分钟的480P视频,仅需消耗2.32×10¹²FLOPs的计算量,而基线模型需要1.66×10¹³FLOPs,MoC将计算量削减了85%。 那么,MoC方法是如何实现的呢? ...