记忆增稳
搜索文档
长视频生成可以回头看了,牛津提出「记忆增稳」,速度提升12倍
36氪· 2025-09-05 08:41
核心观点 - 牛津大学团队提出VMem(Surfel-Indexed View Memory)技术,通过基于3D几何的记忆索引替代传统的短窗口上下文,在视频/多视图生成中实现了更强的长时一致性、更低的资源消耗和更快的生成速度 [1] 技术原理与创新 - **几何记忆目录**:将过去生成的视图按3D表面元素(surfel)索引,每个surfel记录“哪几帧见过我”,以此构建显式、可查询、几何对齐的外部记忆 [2][10] - **相关性检索**:面对新视角时,通过渲染surfel并统计每个像素投票到的“出现过的帧编号”,挑选出现频率最高的Top-K帧作为参考上下文,相关性度量基于几何可见性而非时间或距离 [5][7] - **即插即用模块**:该记忆模块可接入如SEVA等图像集生成骨干模型,将上下文帧数从K=17减少到K=4仍能保持指标,实现高效生成 [4] 性能表现 - **生成速度**:在RTX 4090上,VMem结合LoRA微调的K=4/M=4版本实现4.2秒/帧的生成速度,比常规21帧上下文的管线快约12倍(对比50秒/帧)[1][17] - **长期一致性指标**:在标准长期设置(>200帧)评测中,VMem (K=17) 在PSNR(14.09)、SSIM(0.227)、FID(23.56)等关键指标上优于或接近SEVA (K=17) 等基线模型 [13] - **回环轨迹评测**:在团队提出的回环轨迹评测中,VMem (K=17) 在PSNR(18.15)、LPIPS(0.304)、SSIM(0.377)上显著领先于LookOut(PSNR 8.41)、GenWarp(PSNR 11.13)等对比方法,回到起点时外观与布局更一致 [14][15] 应用价值与优势 - **解耦记忆与计算**:记忆容量与生成步数解耦,跨数百步仍能稳定回访同一地点与外观,解决了传统隐式状态易遗忘早期细节的问题 [10][16] - **提升计算效率**:将“看很多不相干的历史帧”变为“只看与当前表面相关的少量关键帧”,大幅缩小了上下文窗口与算力需求 [16] - **增强可解释性与鲁棒性**:基于surfel可见性投票的检索策略相比基于最近帧、相机距离或FOV重叠的方法更可靠,对几何误差相对更鲁棒,且记忆可解释、可按区域/密度/热度进行裁剪 [16][17] 技术集成前景 - **作为外部记忆**:可作为Key-Value存储接入现有世界模型,Key为surfel几何属性,Value为出现过该surfel的帧与特征,供模型在预测前检索融合 [10] - **作为检索前端**:可作为视频/多视图生成主干网络的前端,将“上下文选择”外包给几何索引,减轻主干网络负担 [10] - **用于强化学习与具身智能**:可作为共享记忆供“世界模型+策略”共同读写,辅助世界模型进行长期一致模拟,并帮助策略进行定位、导航与回忆 [11]