Workflow
AI长视频生成
icon
搜索文档
攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱
36氪· 2025-12-25 07:54
你是否曾被AI视频生成的不连贯性所困扰? 在交互式创作中,仅仅切换一句提示词,故事就可能瞬间"崩塌":一个角色暂时离开画面后再次出现,却"面目全非",仿佛换了演员;或者,当你尝试引 入一个新角色,AI却在后续的剧情中反复"召唤"这个新人,甚至将多个角色的特征混淆在一起。这种"金鱼记忆"式的顽疾,正是长视频生成在叙事上的一 大致命伤。 现在,来自香港大学和快手可灵(Kling)团队的研究者们,联合推出了突破性方案——MemFlow。 3. "各自为政"的流程:还有一些流程试图将任务拆分,先让一个模型制作关键帧脚本,再让另一个模型根据脚本生成视频。这种方式在根据各段脚本分别 生成时是各自独立的,拼接成的完整视频缺乏全局一致性。 这些僵化的、非自适应的记忆策略,无法应对交互式创作中流动的、不可预测的叙事需求,这正是导致交互式长视频生成一致性差的原因。 产生真正的长时记忆与叙事连贯性 这是一种创新的流式自适应记忆机制,它赋予了AI强大的长时记忆与叙事连贯性,有望彻底解决上述难题。 流动的叙事 vs. 僵化的记忆 为了生成长视频,主流模型普遍采用"分块生成"的策略,即像放映幻灯片一样,一段一段地生成视频片段。 然而,如 ...
百度蒸汽机发布通用AI长视频生成功能
证券时报网· 2025-09-25 10:26
产品技术突破 - 全球首个中文音视频一体化视频生成模型百度蒸汽机升级 发布通用AI长视频生成功能[1] - 采用流式生成技术实现通用长视频"无限"生成能力 突破此前AI仅能生成5秒、10秒短视频的局限[1] - 支持用户生成无限长度AI视频 带来"流式无限生成"全新体验[1] 行业地位 - 此次升级在行业尚属首次 突破依赖首尾帧控制续写时长的技术局限[1]
突破长视频生成瓶颈:南大、TeleAI推出全新AI生成范式MMPL,让创意一镜到底
机器之心· 2025-08-25 06:08
技术突破 - 南京大学联合TeleAI推出长视频自回归生成新范式Macro-from-Micro Planning(MMPL),采用"宏观规划、微观执行"双层生成架构,解决长视频生成中的时域漂移和串行瓶颈问题[3][4][12] - MMPL实现分钟级高质量长视频稳定生成,生成效率显著提升,结合蒸馏加速技术后预览帧率最高可达约32 FPS,接近实时交互体验[5][13] - 在统一测试集上显著优于MAGI、SkyReels、CausVid、Self Forcing等现有方法,在视觉质量、时间一致性和稳定性方面全面领先[15] 技术原理 - 微观规划阶段基于首帧联合预测稀疏关键未来锚点帧(包括早期邻近帧、中部关键帧和末端结束帧),在同一次去噪过程中联合生成,构成片段的"视觉骨架"[20][21][26] - 宏观规划通过分段稀疏连接设计,将各片段末端锚点作为下一段起始条件,使误差累积从T帧级别降低至S段级别(S ≪ T),从根本上缓解长程漂移问题[22][23] - 并行填充阶段所有片段可完全独立生成,支持多GPU并行处理,结合自适应工作负载调度机制实现规划与填充的重叠执行,大幅提升资源利用率[30][31][32] 性能表现 - 支持20秒、30秒乃至1分钟的连贯叙事,片段衔接自然,无明显色彩漂移、闪烁或结构崩坏[19] - 生成整体吞吐量大幅提升,提供最小内存峰值模式和最大吞吐量模式两种运行策略,在内存、延迟与吞吐量之间灵活权衡[32][35][40] - 将长视频生成从"接龙式绘画"转变为"系统性制片",使AI具备从整体出发的规划能力,理解情节推进、协调画面连贯性、控制运动节奏[13][36][37]