Workflow
长视频生成
icon
搜索文档
长视频生成可以回头看了,牛津提出「记忆增稳」,速度提升12倍
36氪· 2025-09-05 08:41
【导读】VMem用基于3D几何的记忆索引替代「只看最近几帧」的短窗上下文:检索到的参考视角刚好看过你现在要渲染的表面区域;让模型在小上下 文里也能保持长时一致性;实测4.2s/帧,比常规21帧上下文的管线快~12倍。 当你用一张图「逛」一套房子,来回转场、回到起点,还希望厨房看起来还是原来的厨房——这件事对视频生成模型并不容易。 牛津大学团队提出VMem(Surfel-Indexed View Memory):把「看过什么」写进一种叫surfel的几何小片里,下一次生成时只取真正相关的过往视角当上 下文,实现了「一致性更强、资源更省、速度更快」的效果。 论文链接:https://arxiv.org/abs/2506.18903 · 几何做「记忆目录」 · 即插即用 记忆模块可挂在SEVA等图像集生成骨干上;把上下文从K=17减到K=4仍能守住指标,还把时延砍到4.2s/帧(RTX 4090)。 为什么「回头看」这么难? 两类主流路线各有痛点: VMem重新审视第二类:与其看「最近」,不如看「最相关」。相关性的度量来自几何可见性。 写入(Write):新生成的帧用CUT3R等点图预测得到稀疏点云→转成surfe ...
用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%
搜狐财经· 2025-09-02 05:45
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 生成分钟级的长视频,只需要和短视频相当的成本? 字节Seed与斯坦福等机构的研究人员一起推出的新模型,能让长视频生成的计算量降低85%。 而且质量不减,还能够保持人物和场景的连贯性。 请看VCR: 团队认为,长视频生成本质上是一个长上下文记忆问题,将视频生成重新定义成了上下文检索任务。 为此,团队提出了一种新的稀疏注意力机制——Mixture of Contexts(MoC)——作为有效的长期记忆检索引擎。 低成本生成分钟级视频 先来看用这项技术生成的长视频效果。 首先是写实场景,这段视频长度56秒,展示的是一老一少两个男人坐在咖啡馆中交谈的场景。 从中可以看出,两个人的外貌和衣着特征在经过多次视角切换之后依然保持一致,桌子上的咖啡也是如此。 换成卡通场景,也能在长达一分半的时间之内保持前后一致性。 关键是,生成这样长时间一致的视频成本,被MoC打下了一个数量级。 使用MoC机制生成一分钟的480P视频,仅需消耗2.32×10¹²FLOPs的计算量,而基线模型需要1.66×10¹³FLOPs,MoC将计算量削减了85%。 那么,MoC方法是如何实现的呢? ...
用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%
量子位· 2025-09-02 04:17
技术突破 - 字节Seed与斯坦福等机构推出新模型,使长视频生成计算量降低85%[1] - 新模型采用Mixture of Contexts(MoC)稀疏注意力机制,将视频生成重构为上下文检索任务[3][4] - 模型在保持人物、场景连贯性和质量的同时显著降低成本[2][6] 性能表现 - 生成1分钟480P视频仅需2.32×10¹²FLOPs,较基线模型1.66×10¹³FLOPs降低85%计算量[10] - 多镜头64秒视频计算量从1.7×10¹³FLOPs降至2.3×10¹²FLOPs,节省86%[11] - 单镜头8秒短片计算量从1.9×10¹⁰FLOPs降至4.1×10⁹FLOPs,减少78%[13] - 所有性能指标(主题一致性0.9421、背景一致性0.9535、动作连贯性0.9920)均优于基线[12][13] 实现机制 - 通过内容对齐分块技术动态切分语义一致的视频块,提升检索精度[19] - 采用动态top-k路由机制,使查询仅与最相关的k个块建立注意力连接[19] - 引入跨模态链接和镜头内链接强制边,防止提示漂移并保证稳定性[20] - 稀疏检索结构通过时间掩码约束为有向无环图,提升训练稳定性[20] 工程优化 - 键值打包至FlashAttention可变长核,支持对数千万token的线性伸缩处理[20] - GPU端实现访存连续和充分并行,保障计算效率[20]