Workflow
阿里开源Wan2.2-S2V模型:静态图与音频合成电影级数字人视频
搜狐财经·2025-08-27 15:54

产品发布与功能 - 阿里巴巴推出多模态视频生成模型通义万相Wan2 2-S2V 用户通过静态图片和音频可生成分钟级电影级别数字人视频 支持面部表情自然 口型同步和肢体动作流畅 [1] - 模型支持真人 卡通 动物和数字人等多种图片类型 涵盖肖像 半身和全身画幅 用户上传音频即可使主体形象说话 唱歌或表演 [1] - 引入文本控制功能 用户可通过输入Prompt对视频画面个性化调整 实现主体运动和背景变化多样化 例如上传人物弹钢琴照片 歌曲和描述文字可生成完整钢琴演奏视频 [2] 技术架构与创新 - 模型基于视频生成基础模型 结合文本引导全局运动控制和音频驱动细粒度局部运动 实现复杂场景下音频驱动视频高效生成 [3] - 采用AdaIN和CrossAttention两种控制机制 实现更准确动态的音频控制效果 通过层次化帧压缩技术将历史参考帧长度拓展至73帧 保障长视频生成稳定性和高质量 [3] - 训练使用超过60万个片段的音视频数据集 通过混合并行训练进行全参数化训练 支持多分辨率训练与推理 适应竖屏短视频和横屏影视剧等不同场景需求 [3] 市场表现与开源生态 - 模型在Hugging Face和魔搭社区上架 用户可直接下载或通过官网体验 [1] - 自2月以来通义万相已开源文生视频 图生视频和首尾帧生视频等多款模型 下载量超2000万次 成为开源社区最受欢迎视频生成模型之一 [4] - 实测显示Wan2 2-S2V在视频质量 表情真实度和身份一致性等核心指标上取得同类模型最佳成绩 [4]