Workflow
图像到有声视频生成
icon
搜索文档
原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架
机器之心· 2025-05-29 03:04
核心观点 - 中国人民大学高瓴人工智能学院与值得买科技 AI 团队提出了一种名为 JointDiT 的生成框架,首次实现从静态图像直接生成同步音视频内容的技术突破 [1][6][11] - 该技术解决了传统多模态生成中音视频语义错位与节奏失调的问题,通过联合注意力机制和联合引导机制实现高质量同步生成 [8][15][17] - 在 CVPR 2025 会议上发表的实验数据显示,JointDiT 在视频质量(FVD 326)、音频质量(FAD 23.9)和音视频一致性(AV-Align 1.296)等核心指标上全面领先现有方法 [19][20] 技术背景 - 人类感知本质上是多模态的,但现有 AI 生成技术长期将视觉与听觉拆分为独立研究路径 [6] - 谷歌 Veo 3 模型已开始探索视频与音频同步生成,而 JointDiT 首次系统定义了图像到有声视频(I2SV)这一新任务 [6][11] - 传统拼接方法(如 SVD+Im2Wav)存在语义错位问题,例如视频中小狗未张嘴却配汪汪叫声 [8][10] 技术方案 - **架构设计**:通过解构预训练的音视频扩散模型,在专家层引入 Joint Block 实现跨模态交互,保留独立输入输出层处理模态差异 [13] - **感知式联合注意力**:采用模态特定的 Query-Key-Value 映射,解决音视频在时间/空间/频率维度的异构差异 [15] - **联合引导机制**:提出 JointCFG* 技术,在强化图像条件引导的同时增强跨模态交互,提升语义一致性与时间同步性 [17] 实验结果 - **定量数据**:在 GreatestHits 数据集上,JointDiT 的 FVD(173)和 FAD(1.08)显著优于 SVD+AudioLDM(FVD 441,FAD 26.65)等对比方法 [20] - **用户评价**:在视频质量、音频质量、语义一致性等五项主观评分中均排名第一,领先第二名近 20% [21] - **案例表现**:保龄球击瓶案例中,生成视频精确模拟撞击声与瓶子倾倒的连锁声响,视听延迟符合物理规律 [25][26] 应用前景 - 可应用于娱乐内容创作、影视制作等领域,例如将静态剧照自动转化为带环境音效的动态预告片 [28] - 为构建多模态通用模型(图像/文本/音频/视频四模态联合)提供技术基础,未来或实现"一张照片讲述完整故事" [28][29] - 项目代码与模型将近期公开,官方 Demo 页已展示技术细节与案例 [30]