EgoLCD
搜索文档
生成不遗忘,「超长时序」世界模型,北大EgoLCD长短时记忆加持
36氪· 2025-12-24 07:58
行业技术突破 - 视频生成行业面临长视频“内容漂移”的核心挑战,即模型在生成过程中难以保持物体和背景的一致性,尤其是在第一人称视角等复杂场景下[1] - 北京大学、中山大学、浙江大学、中科院和清华大学的研究团队联合发布全新长上下文扩散模型EgoLCD,旨在解决长视频生成中的内容漂移问题[2] - EgoLCD在EgoVid-5M基准测试中,在时间一致性和生成质量上全面超越OpenSora、SVD等主流模型[3] 核心技术架构 - EgoLCD首创了模仿人类大脑的“长短时记忆”系统,长期记忆负责全局稳定性,短期记忆负责快速适应局部变化[5] - 长期记忆采用稀疏KV缓存机制,只存储和检索关键的“语义锚点”,显著降低显存占用并锁定全局一致性[11] - 短期记忆结合注意力机制与LoRA作为隐式记忆单元,以快速捕捉当前视角的剧烈变化[11] - 模型引入了结构化叙事提示方案,在训练时使用GPT-4o生成详尽的帧级描述,在推理时通过检索前序提示来引导生成,确保连贯性[7][8] 模型性能表现 - 在感知质量指标上,EgoLCD在图像质量上得分为0.6852,运动平滑度得分为0.9956,美学质量得分为0.6047,背景一致性得分为0.9588,主体一致性得分为0.9597,清晰度得分为0.7551[9] - 在NRDP指标上,EgoLCD在运动、美学、背景和主体的一致性上表现优异,得分分别为0.0119、0.9618、0.2945和0.0844[9] - 在与其他模型的对比中,EgoLCD的CD-FVD指标为187.94,语义一致性为0.291,动作一致性为0.510,清晰度得分为0.530,运动平滑度为0.992,运动强度为20.732,各项指标均优于SVD、DynamiCrafter和OpenSora等模型[12] - 实验显示,EgoLCD在NRDP-Subject和NRDP-Background指标上取得压倒性优势,漂移率极低[13] - 模型能够生成长达60秒的连贯视频,人物衣着和背景细节始终保持一致[15] 行业应用与前景 - EgoLCD被视为一个“第一人称世界模拟器”,其生成长时程、高一致性视频的能力,可为具身智能提供海量训练数据,模拟复杂的物理交互和长序列任务[15] - 该技术被认为是向构建具身智能世界模型迈出的关键一步,让通过视频教会机器人理解世界的梦想变得更清晰[3][15]