InfiniteTalk

搜索文档
告别「面瘫」配音,InfiniteTalk开启从口型同步到全身表达新范式
机器之心· 2025-08-28 00:55
核心技术突破 - 提出稀疏帧video dubbing新范式 将传统嘴部区域修复转变为以稀疏关键帧为引导的全身视频生成 实现口型同步及面部表情、头部转动和肢体语言与音频情感的自然对齐[2][14] - 采用流式生成架构处理无限长视频 通过上下文帧机制传递动量信息 解决长视频生成中的累积误差和片段过渡生硬问题[16] - 创新软条件控制机制 通过细粒度参考帧定位动态调整控制强度 在动作自然度与参考帧保真度间取得最优平衡[17][19] 技术性能表现 - 在HDTF数据集上取得FID 27.14、FVD 132.54、Sync-C 9.18、Sync-D 6.84、CSIM 0.751的指标表现 综合性能优于对比模型[22] - 在CelebV-HQ数据集上实现Sync-C 7.41和CSIM 0.713 同步性与身份保持指标领先[22] - 在EMTD数据集上获得Sync-C 8.34和CSIM 0.709 展现跨数据集的稳定性能[22] 应用场景拓展 - 集成SDEdit或Uni3C插件可精确保留源视频镜头运动 提升画面构图和运镜连贯性[21] - 技术可应用于短视频创作、虚拟偶像、在线教育及沉浸式体验领域 为创作者提供低成本高效率的内容生成工具[27] - 由美团视觉智能部研发 已开源技术论文、代码和权重 支持本地生活电商场景的视觉技术能力建设[3][5]