长视频生成 - 财报，业绩电话会，研报，新闻

长视频生成

搜索文档

36氪· 2025-09-05 08:41

【导读】VMem用基于3D几何的记忆索引替代「只看最近几帧」的短窗上下文：检索到的参考视角刚好看过你现在要渲染的表面区域；让模型在小上下文里也能保持长时一致性；实测4.2s/帧，比常规21帧上下文的管线快~12倍。当你用一张图「逛」一套房子，来回转场、回到起点，还希望厨房看起来还是原来的厨房——这件事对视频生成模型并不容易。牛津大学团队提出VMem（Surfel-Indexed View Memory）：把「看过什么」写进一种叫surfel的几何小片里，下一次生成时只取真正相关的过往视角当上下文，实现了「一致性更强、资源更省、速度更快」的效果。论文链接：https://arxiv.org/abs/2506.18903 · 几何做「记忆目录」 · 即插即用记忆模块可挂在SEVA等图像集生成骨干上；把上下文从K=17减到K=4仍能守住指标，还把时延砍到4.2s/帧（RTX 4090）。为什么「回头看」这么难？两类主流路线各有痛点： VMem重新审视第二类：与其看「最近」，不如看「最相关」。相关性的度量来自几何可见性。写入（Write）：新生成的帧用CUT3R等点图预测得到稀疏点云→转成surfe ...

长视频生成

记忆增稳

VMem（Surfel-Indexed View Memory）

长视频生成

记忆增稳

VMem（Surfel-Indexed View Memory）

用短视频成本生成长视频，字节Seed新注意力机制让计算量降低85%

搜狐财经· 2025-09-02 05:45

克雷西发自凹非寺量子位 | 公众号 QbitAI 生成分钟级的长视频，只需要和短视频相当的成本？字节Seed与斯坦福等机构的研究人员一起推出的新模型，能让长视频生成的计算量降低85%。而且质量不减，还能够保持人物和场景的连贯性。请看VCR：团队认为，长视频生成本质上是一个长上下文记忆问题，将视频生成重新定义成了上下文检索任务。为此，团队提出了一种新的稀疏注意力机制——Mixture of Contexts（MoC）——作为有效的长期记忆检索引擎。低成本生成分钟级视频先来看用这项技术生成的长视频效果。首先是写实场景，这段视频长度56秒，展示的是一老一少两个男人坐在咖啡馆中交谈的场景。从中可以看出，两个人的外貌和衣着特征在经过多次视角切换之后依然保持一致，桌子上的咖啡也是如此。换成卡通场景，也能在长达一分半的时间之内保持前后一致性。关键是，生成这样长时间一致的视频成本，被MoC打下了一个数量级。使用MoC机制生成一分钟的480P视频，仅需消耗2.32×10¹²FLOPs的计算量，而基线模型需要1.66×10¹³FLOPs，MoC将计算量削减了85%。那么，MoC方法是如何实现的呢？ ...

Mixture of Contexts（MoC）

Mixture of Contexts（MoC）

用短视频成本生成长视频，字节Seed新注意力机制让计算量降低85%

量子位· 2025-09-02 04:17

技术突破 - 字节Seed与斯坦福等机构推出新模型，使长视频生成计算量降低85%[1] - 新模型采用Mixture of Contexts（MoC）稀疏注意力机制，将视频生成重构为上下文检索任务[3][4] - 模型在保持人物、场景连贯性和质量的同时显著降低成本[2][6] 性能表现 - 生成1分钟480P视频仅需2.32×10¹²FLOPs，较基线模型1.66×10¹³FLOPs降低85%计算量[10] - 多镜头64秒视频计算量从1.7×10¹³FLOPs降至2.3×10¹²FLOPs，节省86%[11] - 单镜头8秒短片计算量从1.9×10¹⁰FLOPs降至4.1×10⁹FLOPs，减少78%[13] - 所有性能指标（主题一致性0.9421、背景一致性0.9535、动作连贯性0.9920）均优于基线[12][13] 实现机制 - 通过内容对齐分块技术动态切分语义一致的视频块，提升检索精度[19] - 采用动态top-k路由机制，使查询仅与最相关的k个块建立注意力连接[19] - 引入跨模态链接和镜头内链接强制边，防止提示漂移并保证稳定性[20] - 稀疏检索结构通过时间掩码约束为有向无环图，提升训练稳定性[20] 工程优化 - 键值打包至FlashAttention可变长核，支持对数千万token的线性伸缩处理[20] - GPU端实现访存连续和充分并行，保障计算效率[20]

长视频生成

稀疏注意力机制

人工智能

Mixture of Contexts（MoC）

长视频生成

稀疏注意力机制

人工智能

Mixture of Contexts（MoC）