多模态音频生成

搜索文档
腾讯混元最新开源:一键生成电影级音效,性能表现全面SOTA
量子位· 2025-08-29 00:54
腾讯混元视频音效生成模型开源 - 腾讯混元正式开源端到端视频音效生成模型HunyuanVideo-Foley,专为视频内容创作者打造专业级音频生成工具 [1][2] - 该模型支持多场景音效生成,包括人物互动、动物活动、自然景观、卡通动画及科幻场景,实现音画同步与语义对齐 [10][11] - 模型完全开源,提供官网、GitHub及Hugging Face等访问渠道 [6][31] 技术突破与性能表现 - 解决视频转音频三大挑战:多模态数据集匮乏、语义响应不均衡及音质粗糙问题 [8] - 在VGGSound-Test基准测试中,关键指标全面领先:FDPaNNs为6.07(优于其他模型9.01-33.15),FDPaSST为202.12(优于其他模型205.85-474.56) [22] - 在MovieGen-Audio-Bench主观评测中,音频质量(MOS-Q)、语义对齐(MOS-S)和时间对齐(MOS-T)均超4.1分(满分5分),达到接近专业水准 [23] 核心技术创新 - 构建约10万小时级高质量TV2A数据集,通过自动化标注与数据过滤管线支撑模型泛化能力 [26] - 创新设计双流多模态扩散变换器(MMDiT)架构,实现视频与音频帧级别对齐及文本信息注入 [29] - 采用表征对齐(REPA)损失函数与改进型DAC-VAE技术,提升音频质量至48kHz采样率及128维连续表征 [30] 行业应用场景 - 为短视频创作者提供一键生成背景音效功能,适配搞笑段子、生活vlog及AI视频等内容 [31] - 助力电影制作团队突破传统音效制作周期与成本瓶颈,快速构建环境音与拟音场景 [31] - 为广告公司提供专业级音效定制服务,增强产品宣传片的视觉冲击力与品牌记忆点 [31] - 面向游戏开发者实时生成沉浸式环境音与角色动作音效,提升游戏互动体验 [31]