Workflow
用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%
量子位·2025-09-02 04:17

技术突破 - 字节Seed与斯坦福等机构推出新模型,使长视频生成计算量降低85%[1] - 新模型采用Mixture of Contexts(MoC)稀疏注意力机制,将视频生成重构为上下文检索任务[3][4] - 模型在保持人物、场景连贯性和质量的同时显著降低成本[2][6] 性能表现 - 生成1分钟480P视频仅需2.32×10¹²FLOPs,较基线模型1.66×10¹³FLOPs降低85%计算量[10] - 多镜头64秒视频计算量从1.7×10¹³FLOPs降至2.3×10¹²FLOPs,节省86%[11] - 单镜头8秒短片计算量从1.9×10¹⁰FLOPs降至4.1×10⁹FLOPs,减少78%[13] - 所有性能指标(主题一致性0.9421、背景一致性0.9535、动作连贯性0.9920)均优于基线[12][13] 实现机制 - 通过内容对齐分块技术动态切分语义一致的视频块,提升检索精度[19] - 采用动态top-k路由机制,使查询仅与最相关的k个块建立注意力连接[19] - 引入跨模态链接和镜头内链接强制边,防止提示漂移并保证稳定性[20] - 稀疏检索结构通过时间掩码约束为有向无环图,提升训练稳定性[20] 工程优化 - 键值打包至FlashAttention可变长核,支持对数千万token的线性伸缩处理[20] - GPU端实现访存连续和充分并行,保障计算效率[20]