多模态音频生成 - 财报，业绩电话会，研报，新闻 - Reportify

多模态音频生成

搜索文档

腾讯混元最新开源：一键生成电影级音效，性能表现全面SOTA

量子位· 2025-08-29 00:54

腾讯混元视频音效生成模型开源 - 腾讯混元正式开源端到端视频音效生成模型HunyuanVideo-Foley，专为视频内容创作者打造专业级音频生成工具 [1][2] - 该模型支持多场景音效生成，包括人物互动、动物活动、自然景观、卡通动画及科幻场景，实现音画同步与语义对齐 [10][11] - 模型完全开源，提供官网、GitHub及Hugging Face等访问渠道 [6][31] 技术突破与性能表现 - 解决视频转音频三大挑战：多模态数据集匮乏、语义响应不均衡及音质粗糙问题 [8] - 在VGGSound-Test基准测试中，关键指标全面领先：FDPaNNs为6.07（优于其他模型9.01-33.15），FDPaSST为202.12（优于其他模型205.85-474.56） [22] - 在MovieGen-Audio-Bench主观评测中，音频质量（MOS-Q）、语义对齐（MOS-S）和时间对齐（MOS-T）均超4.1分（满分5分），达到接近专业水准 [23] 核心技术创新 - 构建约10万小时级高质量TV2A数据集，通过自动化标注与数据过滤管线支撑模型泛化能力 [26] - 创新设计双流多模态扩散变换器（MMDiT）架构，实现视频与音频帧级别对齐及文本信息注入 [29] - 采用表征对齐（REPA）损失函数与改进型DAC-VAE技术，提升音频质量至48kHz采样率及128维连续表征 [30] 行业应用场景 - 为短视频创作者提供一键生成背景音效功能，适配搞笑段子、生活vlog及AI视频等内容 [31] - 助力电影制作团队突破传统音效制作周期与成本瓶颈，快速构建环境音与拟音场景 [31] - 为广告公司提供专业级音效定制服务，增强产品宣传片的视觉冲击力与品牌记忆点 [31] - 面向游戏开发者实时生成沉浸式环境音与角色动作音效，提升游戏互动体验 [31]

腾讯控股(HK:00700)

视频音效生成

多模态音频生成

HunyuanVideo-Foley

视频音效生成

多模态音频生成

HunyuanVideo-Foley