记忆增稳

搜索文档
长视频生成可以回头看了,牛津提出「记忆增稳」,速度提升12倍
36氪· 2025-09-05 08:41
【导读】VMem用基于3D几何的记忆索引替代「只看最近几帧」的短窗上下文:检索到的参考视角刚好看过你现在要渲染的表面区域;让模型在小上下 文里也能保持长时一致性;实测4.2s/帧,比常规21帧上下文的管线快~12倍。 当你用一张图「逛」一套房子,来回转场、回到起点,还希望厨房看起来还是原来的厨房——这件事对视频生成模型并不容易。 牛津大学团队提出VMem(Surfel-Indexed View Memory):把「看过什么」写进一种叫surfel的几何小片里,下一次生成时只取真正相关的过往视角当上 下文,实现了「一致性更强、资源更省、速度更快」的效果。 论文链接:https://arxiv.org/abs/2506.18903 · 几何做「记忆目录」 · 即插即用 记忆模块可挂在SEVA等图像集生成骨干上;把上下文从K=17减到K=4仍能守住指标,还把时延砍到4.2s/帧(RTX 4090)。 为什么「回头看」这么难? 两类主流路线各有痛点: VMem重新审视第二类:与其看「最近」,不如看「最相关」。相关性的度量来自几何可见性。 写入(Write):新生成的帧用CUT3R等点图预测得到稀疏点云→转成surfe ...