自回归视频生成 - 财报，业绩电话会，研报，新闻

自回归视频生成

搜索文档

机器之心· 2025-10-18 08:30

文章核心观点 - Self-Forcing++技术突破视频生成长度限制，首次实现4分钟15秒高质量长视频生成，无需长视频数据再训练[2][10] - 该技术通过“教师模型即世界模型”的核心思想，利用教师模型纠错能力，使学生模型在长时间尺度下学会自我修复和稳态生成[8][9][10] - 在50秒、75秒和100秒视频生成评测中全面超越基线模型，尤其在动态程度和视觉稳定性指标上表现突出[23][25] 技术原理与创新 - 采用反向噪声初始化技术，在长视频生成后将噪声重新注入已生成序列，保持时间连续性，避免时间割裂[13][14][15] - 提出扩展分布匹配蒸馏方法，将教师-学生分布对齐从5秒窗口扩展为滑动窗口蒸馏，实现长期一致性学习[16][18] - 在训练阶段同步采用滚动KV缓存，实现真正的训练-推理对齐，彻底消除曝光漂移和帧重复问题[19][20] - 引入强化学习的光流平滑奖励机制，惩罚光流突变，使视频运动过渡更自然，光流方差显著下降[22] 性能表现与实验结果 - 模型参数量为1.3B，在100秒视频生成中文本对齐得分26.04，时序质量90.87，动态程度54.12，视觉稳定性84.22[25][26] - 在50秒视频生成评测中，动态程度指标达到55.36，远超基线模型的31.96-39.15，视觉稳定性达到90.94，显著优于基线模型的40.12-60.41[25] - 随着训练算力增加，视频质量显著提升，训练预算达到25倍时可实现几乎无损的长视频生成[31] - 在0-100秒生成过程中能保持很好稳定性，基线模型大多会出现严重质量下降如过曝光和错误累积[25][30] 行业现状与挑战 - 当前主流视频生成模型如Sora、Wan、Hunyuan-Video等普遍受限于数秒短片段生成，存在训练-推理不匹配和误差累积等架构缺陷[6][7][17] - 极长场景下仍存在长时记忆缺失问题，可能丢失被遮挡物体状态，且自回归训练成本较高，效率有待提升[33]

快手可灵团队提出MIDAS：压缩比64倍、延迟低于500ms，多模态互动数字人框架实现交互生成新突破

机器之心· 2025-09-13 08:54

文章核心观点 - 快手可灵团队提出MIDAS框架通过自回归视频生成结合轻量化扩散去噪头实现多模态条件下实时流畅的数字人视频合成具备低延迟多模态控制与长时序一致性三大核心优势[2] - 该系统支持音频姿态文本等多种输入信号通过统一多模态条件投影器编码到共享潜在空间实现语义和空间一致的数字人生成[5] - 在双人对话多语言歌唱合成和交互世界建模等任务中表现优异生成延迟低于500ms 支持长达4分钟的连续生成且质量衰减显著低于基线方法[13][14] 技术架构 - 采用因果潜在预测加扩散渲染设计嵌套类似大语言模型的自回归架构逐帧预测潜在表示再由轻量级扩散头进行去噪和高清渲染[7] - 使用高压缩率自编码器DC-AE 压缩比高达64倍每帧图像最多用60个令牌表示支持最高384×640分辨率图像重建[8] - 基于Qwen2.5-3B作为自回归主干网络扩散头采用PixArt-α/mlp结构支持分块流式生成每块6帧[12] 性能表现 - 端到端生成延迟低于500ms 扩散头仅需4步去噪在效率与视觉质量间取得最佳平衡[4][14] - 支持双人实时对话交互生成与语音同步的口型表情和倾听姿态[13] - 实现中文日文英文歌曲的唇形同步生成视频可达4分钟无显著漂移[13] - 在Minecraft数据集训练后展现出良好场景一致性与记忆能力[13] 数据与训练 - 构建约2万小时大规模多模态对话数据集涵盖单人双人对话场景及多语言多风格内容[10] - 引入可控噪声注入训练策略通过20级噪声桶和对应嵌入缓解自回归模型推理阶段的曝光偏差问题[12] 应用前景 - 为虚拟人直播元宇宙交互多模态AI智能体等应用奠定技术基础[16] - 模块化设计允许灵活扩展至更多模态与控制信号[16] - 未来将探索更高分辨率更复杂交互逻辑下的生成能力并推进系统在真实产品环境中的部署[17]

每秒生成超30帧视频，支持实时交互！自回归视频生成新框架刷新生成效率

量子位· 2025-06-12 01:37

核心观点 - 微软研究院与北大联合发布新框架Next-Frame Diffusion (NFD)，实现每秒超30帧自回归视频生成，同时保持高质量画面 [1][2] - NFD通过帧内并行采样和帧间自回归方式提升生成效率，在NVIDIA A100 GPU上生成《我的世界》视频仅需0.48秒 [2][4] - 该技术可能改变游戏行业交互方式，玩家可直接与模型交互而无需传统游戏引擎 [3] 技术架构 - NFD采用帧内双向注意力和帧间因果注意力机制建模视频，使用扩散模型多步迭代生成连续Token [21] - 引入块状因果注意力机制的Transformer，将整体计算成本减少50%，支持高效并行预测下一帧所有Token [25][26] - 基于Flow Matching构建训练流程，通过线性插值生成加噪版本并最小化Flow Matching损失 [27] 性能优化 - 通过一致性蒸馏扩展到视频领域，将流匹配模型转换为TrigFlow模型，简化训练过程 [28] - 提出投机采样技术，利用可预测的用户输入并行生成多帧，预测错误时丢弃后续帧重新生成 [30][33] - 310M模型FVD达到212，PSNR为16.46，优于MineWorld（1.2B）的FVD 227和PSNR 15.69 [35] 性能表现 - NFD+加速版本130M和310M模型分别达到42.46FPS和31.14FPS，远超基线 [36] - 310M模型在PSNR上达到16.83，FVD为227，与更大的MineWorld模型表现相当 [37] - 相比此前每秒4-7帧的MineWorld模型，NFD生成速度快了几倍 [15][18] 行业影响 - 视频生成模型在多个领域快速发展，包括Sora、可灵、Veo3等产品及Genie、MineWorld等游戏模拟器 [37] - 该技术为未来世界模型的实现提供重要基础，高效生成范式变得越来越重要 [37] - 可能重塑游戏行业交互模式，实现玩家与模型的直接互动 [3]

Next-Frame Diffusion (NFD)

Next-Frame Diffusion (NFD)