多模态视频生成

搜索文档
阿里开源Wan2.2-S2V模型:静态图与音频合成电影级数字人视频
搜狐财经· 2025-08-27 15:54
产品发布与功能 - 阿里巴巴推出多模态视频生成模型通义万相Wan2 2-S2V 用户通过静态图片和音频可生成分钟级电影级别数字人视频 支持面部表情自然 口型同步和肢体动作流畅 [1] - 模型支持真人 卡通 动物和数字人等多种图片类型 涵盖肖像 半身和全身画幅 用户上传音频即可使主体形象说话 唱歌或表演 [1] - 引入文本控制功能 用户可通过输入Prompt对视频画面个性化调整 实现主体运动和背景变化多样化 例如上传人物弹钢琴照片 歌曲和描述文字可生成完整钢琴演奏视频 [2] 技术架构与创新 - 模型基于视频生成基础模型 结合文本引导全局运动控制和音频驱动细粒度局部运动 实现复杂场景下音频驱动视频高效生成 [3] - 采用AdaIN和CrossAttention两种控制机制 实现更准确动态的音频控制效果 通过层次化帧压缩技术将历史参考帧长度拓展至73帧 保障长视频生成稳定性和高质量 [3] - 训练使用超过60万个片段的音视频数据集 通过混合并行训练进行全参数化训练 支持多分辨率训练与推理 适应竖屏短视频和横屏影视剧等不同场景需求 [3] 市场表现与开源生态 - 模型在Hugging Face和魔搭社区上架 用户可直接下载或通过官网体验 [1] - 自2月以来通义万相已开源文生视频 图生视频和首尾帧生视频等多款模型 下载量超2000万次 成为开源社区最受欢迎视频生成模型之一 [4] - 实测显示Wan2 2-S2V在视频质量 表情真实度和身份一致性等核心指标上取得同类模型最佳成绩 [4]
阿里开源视频生成模型Wan2.2-S2V
证券时报网· 2025-08-26 13:59
公司技术发布 - 阿里开源多模态视频生成模型通义万相Wan2 2-S2V [1] - 模型仅需一张静态图片和一段音频即可生成电影级数字人视频 [1] - 生成视频的面部表情自然且口型一致 [1] 产品性能特征 - 单次生成的视频时长可达分钟级 [1]
多模态视频生成模型通义万相“Wan2.2-S2V”正式开源
第一财经· 2025-08-26 13:57
公司技术发布 - 全新多模态视频生成模型通义万相"Wan2.2-S2V"正式开源 [2] - 模型仅需一张静态图片和一段音频即可生成电影级数字人视频 [2] - 生成视频具有面部表情自然 口型一致 肢体动作丝滑的特点 [2] - 模型单次生成的视频时长可达分钟级 [2] - 模型已在通义万相官网上线 [2] 行业应用影响 - 模型大幅提升数字人直播行业的视频创作效率 [2] - 模型大幅提升影视制作行业的视频创作效率 [2] - 模型大幅提升AI教育等行业的视频创作效率 [2]
腾讯混元推出全新多模态视频生成工具 现已开源并上线官网
搜狐财经· 2025-05-10 14:48
腾讯混元推出多模态视频生成工具Hunyuan Custom - 腾讯混元于5月9日正式推出并开源全新多模态定制化视频生成工具Hunyuan Custom [1] - 该工具基于混元视频生成大模型Hunyuan Video打造 [1] Hunyuan Custom的核心功能 - 具备强大的多模态融合能力,可同时处理文本、图像、音频、视频等多种输入形式 [3] - 相比传统视频生成模型,在生成质量和控制力方面有显著提升 [3] - 提供多种视频生成模式:单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑 [3] - 单主体生成能力已开源并在混元官网上线,其他能力将于5月内陆续开源 [3] 技术优势 - 突破传统模型在人物一致性和场景变换方面的限制 [3] - 单主体生成模式下,只需上传一张图片和文本描述即可生成连贯自然的视频内容 [3] - 支持多主体视频生成,让多个主体按要求出现在视频里 [3] 扩展应用场景 - 音频驱动模式下可生成数字人直播、虚拟客服、教育演示等场景的音视频同步效果 [4] - 视频驱动模式下支持将图片中的人物或物体自然地替换或插入到任意视频片段中 [4] - 适用于创意植入、场景扩展、视频重构与内容增强等应用 [4]
图像提供身份,文本定义一切!腾讯开源多模态视频定制工具HunyuanCustom
AI科技大本营· 2025-05-09 09:35
多模态视频生成技术 - 腾讯混元团队推出并开源多模态定制化视频生成框架HunyuanCustom,支持图像、文本、音频和视频等多种输入模态,提供高度可控且高质量的视频生成能力 [1] - 传统图生视频或文生视频模型难以保持人物身份不变,HunyuanCustom通过引入基于LLaVA的图文融合模块和时间级联的图像ID增强机制解决"变脸难题" [3] - HunyuanCustom支持上传照片生成定制化视频内容,支持音频驱动让视频中人物"开口说话",支持视频输入实现个性化内容植入 [5] 系统架构与性能表现 - HunyuanCustom设计了多个关键模块,在训练与推理阶段实现图像、语音、视频等模态的解耦控制,为多模态生成提供灵活接口 [6] - 在对比测试中,HunyuanCustom在主体一致性(0.627)方面显著领先其他模型,DINO-Sim得分达0.593,整体视频质量评分(DD)为0.71 [9] - 测试对比模型包括VACE、Skyreels、Pika、Vidu、Keling和Hailuo等主流视频定制方法 [8] 技术实现与数据构建 - 团队引入Qwen、YOLO、InsightFace、GroundingSAM2等模型协同构建数据标签体系,覆盖人类、动物、植物、建筑、动画等多个主体类型 [11] - 训练采用Flow Matching框架,结合结构化标注和mask增强策略,提升模型泛化能力与编辑灵活度 [11] - 技术模块包括LLaVA图文交互模块、图像ID增强模块、AudioNet模块和视频驱动注入模块 [11] 产品发布与体验 - HunyuanCustom的单主体生成能力已在混元官网上线,用户可在"模型广场-图生视频-参考生视频"中体验,其他能力将于5月内陆续对外开源 [10] - 提供体验入口、项目官网、代码仓库和技术报告等资源链接 [12]
腾讯混元发布并开源视频生成工具HunyuanCustom,支持主体一致性生成
快讯· 2025-05-09 04:22
腾讯混元团队发布多模态视频生成工具 - 腾讯混元团队于5月9日发布并开源多模态定制化视频生成工具HunyuanCustom [1] - 该工具基于混元视频生成大模型(HunyuanVideo)打造 [1] - 在主体一致性效果方面超过现有开源方案,可媲美顶尖闭源模型 [1] HunyuanCustom技术特点 - 融合文本、图像、音频、视频等多模态输入生成视频的能力 [1] - 具备高度控制力和生成质量的智能视频创作工具 [1]
快手-W:看好快手可灵卡位,多模态视频生成全球领先-20250317
东方证券· 2025-03-16 08:23
报告公司投资评级 - 维持“买入”评级,目标价 75.96 港元/股 [4][5][69] 报告的核心观点 - 多模态视频生产工具带动内容生态新周期可期,快手(可灵)卡位和领先优势值得重视 [8] - 可灵技术目前全球 TOP3(国内 TOP1),尤其在核心评价指标上属全球领先卡位 [8] - 快手可灵能持续领先,原因在于技术能力强、战略重视、资源倾斜、组织架构稳定统一以及高质量视频语料库 [8] - 用户端表现和商业化进展可侧面验证可灵实力,建议持续跟踪边际变化 [8] - 社区流量稳健,商业化、电商业务稳步推进,目前估值处于中位偏低,2025 年基本面稳健,提供较好安全边际 [8] 根据相关目录分别进行总结 前言:多模态视频生产工具打开新周期内容生态方式 - 技术平权趋势下内容创作门槛下降,带来内容社区生态繁荣和多元变现模式 [14][15][16] - 多模态视频生成技术进步将降低内容创作门槛,形成下一代内容生态,快手(可灵)卡位和领先优势值得重视 [17] - 可灵若持续领先,有望带领快手经历 PUGC 用户工具产品、平台多场景赋能、新流量平台三阶段 [19] 一、视频生成模型进入高速发展期,可灵、Sora、Veo2 综合实力领先 1.1 视频生成模型以 DiT 为主流架构,以快手为代表的国内厂商快速取得技术突破 - 视频生成模型以 DiT 为主流架构,发展迅速,快手可灵等采用该架构 [22] - Sora 发布后国内厂商迅速追赶,快手 4 个月后上线可灵并快速迭代 [23] - 现有厂商中,Tier1 为谷歌 Veo2、OpenAI Sora、快手可灵等,视觉质量和精确控制是核心指标,可灵在这两维度领先 [26][27][31] 1.2 现为视频多模态阶段一,除技术外,可跟踪产品和商业化边际变化 - 24 年主流产品快速迭代,快手迭代速度领先,预期 2025 年产品迭代加快,可灵有望持续领先 [33] - 视频生成产品访问量快速增长,海螺、可灵、Sora 领先,但与 Top AI 产品访问量量级有差距,行业商业化处于早期阶段 [37][38][44] - 目前商业化以工具属性收费为主,未来随着技术进步和成本降低,商业模式会变化,或出现变现更高的模式 [44][45] 二、快手可灵领先地位,期待多模态视频进一步发展 2.1 技术基因不容小觑,可灵持续领先下有望顺利转型 AIGC 内容社区 - 快手早期凭借 GIF 动图制作技术转型短视频社区,可灵可能帮助快手从移动互联网时代转型 AIGC 内容社区 [49] 2.2 快手战略聚焦+组织架构统一协调,带来高效执行贯彻 - 快手将文生视频模型提到战略级地位,算力和卡全力支持可灵,组织架构稳定统一,决策顺畅,执行力高 [51] - 可灵核心团队经验丰富、技术过硬,核心骨干包括万鹏飞、Xin Tao 等人 [52] 2.3 国内短视频数据具备优势,可灵有望持续领先 - 快手数据量和质量有优势,每天超 4000 万条新视频上传,且对视频进行清晰标注,视频数据资源是拉开迭代差距的重要因素 [54] 三、公司流量稳健,基本面稳定,提供较好安全边际 - 快手流量稳健,MAU、DAU 保持增长,DAU/MAU 稳定,单 DAU 日均时长在 132 分钟 [58] - 25 年预计电商 GMV 增速 13.5%,收入增速 10.9%,在线营销服务、其他业务、直播收入分别为 841/204/365 亿,同比分别变动 15.6%/16.1%/-1.0%,总收入 1410 亿元,同比增长 10.9% [64] - 预计 2025 年毛利率提升到 56.5%,Non - GAAP 净利润为 201 亿 [66] 投资建议 - 持续关注视频生成模型技术迭代和可灵竞争优势,关注 AI 对主业赋能,采用 PE 估值法,维持 25 年 15xPE 估值,对应合理价值 3017 亿 CNY,折合 3269 亿 HKD,目标价 75.96 港元/股,维持“买入”评级 [4][68][69]
快手-W:看好快手可灵卡位,多模态视频生成全球领先-20250316
东方证券· 2025-03-16 07:07
报告公司投资评级 - 维持“买入”评级,目标价 75.96 港元/股 [4][5][69] 报告的核心观点 - 多模态视频生产工具带动内容生态新周期可期,快手(可灵)在技术领先、数据资源优势和内容社区生态应用迭代方面的卡位和领先优势值得重视 [8] - 可灵技术目前全球 TOP3(国内 TOP1),尤其在核心评价指标上属全球领先卡位,且具备持续领先的原因,包括技术能力强、战略重视、资源倾斜、组织架构稳定统一以及高质量视频语料库等 [8] - 用户端表现和商业化进展可侧面验证可灵实力,行业商业化目前处第一阶段,可灵+快手及类似 TOP 产品或经历三阶段发展 [8] - 社区流量稳健,商业化、电商业务稳步推进,目前估值处于中位偏低+2025 年基本面稳健,提供较好安全边际 [8] 根据相关目录分别进行总结 前言:多模态视频生产工具打开新周期内容生态方式 - 技术平权趋势下内容创作门槛下降,带来内容社区生态繁荣和多元变现模式,AI 驱动下多模态视频生成技术将进一步降低创作门槛,形成下一代内容生态 [14][15][16] - 快手可灵若持续领先,有望带领快手经历从 PUGC 用户工具产品到平台多场景赋能,再到新流量平台的三阶段发展 [17][19] 一、视频生成模型进入高速发展期,可灵、Sora、Veo2 综合实力领先 1.1 视频生成模型以 DiT 为主流架构,以快手为代表的国内厂商快速取得技术突破 - 视频生成模型以 DiT 为主流架构,发展迅速,快手可灵、OpenAI Sora、生数科技 Vidu 等是采用 DiT 架构的典型代表 [22] - Sora 发布后国内厂商迅速追赶,快手 4 个月后上线可灵并保持快速迭代,目前市面上有多个视频生成产品 [23][24] - 现有评价体系围绕生成视频的真实性和美学效果、语义对齐、视觉质量三个维度,视觉质量是更核心指标,快手可灵在视觉质量和精确控制维度表现领先 [26][27][28] 1.2 现为视频多模态阶段一,除技术外,可跟踪产品和商业化边际变化 - 24 年主流产品快速迭代,快手迭代速度领先,目前多数产品生成视频时长和分辨度差异不大,可灵细节控制和场景细致程度更好,预期 2025 年产品迭代速度加快 [33] - 2025 年 2 月视频生成产品访问量和独立访客数上海螺、可灵、Sora 领先,快手可灵美国流量占比仅次于 Sora,视频生成产品与成熟态 ChatBot 应用有差距 [37][38] - 行业商业化处于早期阶段,目前以工具属性收费为主,未来随着技术进步和成本降低,商业模式会变化,可灵 ToC 端起量快,ToB 端是 25 年重点发力方向 [44][45][48] 二、快手可灵领先地位,期待多模态视频进一步发展 2.1 技术基因不容小觑,可灵持续领先下有望顺利转型 AIGC 内容社区 - 快手早期凭借 GIF 动图制作工具属性的单点技术,成功向短视频社区转型并商业化,可灵有可能帮助快手完成向 AIGC 内容社区的转型 [49] 2.2 快手战略聚焦+组织架构统一协调,带来高效执行贯彻 - 快手将文生视频模型重要程度提到战略级地位,算力和卡全力优先支持可灵,可灵团队核心人员合作久,组织架构稳定统一,执行力高效 [51] 2.3 国内短视频数据具备优势,可灵有望持续领先 - 快手数据量有优势,每天有超 4000 万条新视频上传,场景覆盖面丰富,数据质量高,常年对视频进行清晰标注,国内短视频厂商数据在未来短内容需求下适配性更好 [54] 三、公司流量稳健,基本面稳定,提供较好安全边际 - 快手流量稳健,MAU、DAU 保持增长,24Q3 快手 MAU、DAU 分别为 7.14 亿、4.08 亿,yoy+4.3%、5.4%,DAU/MAU 稳定,单 DAU 日均时长 132 分钟 [58] - 25 年预计电商 GMV 增速 13.5%,收入增速 10.9%,在线营销服务/其他业务/直播收入分别为 841/204/365 亿,同比分别变动 15.6%/16.1%/-1.0%,总收入 1410 亿元,同比增长 10.9% [64] - 预计 2025 年毛利率提升到 56.5%,Non - GAAP 净利润为 201 亿 [66] 投资建议 - 持续关注视频生成模型技术迭代和可灵竞争优势,采用 PE 估值法,维持 25 年 15xPE 估值,对应合理价值 3,017 亿 CNY,折合 3,269 亿 HKD,目标价 75.96 港元/股,维持“买入”评级 [4][68][69]
快手-W(01024):看好快手可灵卡位,多模态视频生成全球领先
东方证券· 2025-03-16 02:49
报告公司投资评级 - 维持“买入”评级,目标价 75.96 港元/股 [4][5][69] 报告的核心观点 - 多模态视频生产工具带动内容生态新周期可期,快手可灵卡位和领先优势值得重视 [8] - 可灵技术全球 TOP3(国内 TOP1),尤其在核心评价指标上属全球领先 [8] - 快手可灵能持续领先,得益于技术能力强、战略重视、数据资源优势 [8] - 用户端表现和商业化进展可侧面验证可灵实力,建议持续跟踪边际变化 [8] - 社区流量稳健,商业化、电商业务稳步推进,目前估值提供较好安全边际 [8] 根据相关目录分别进行总结 前言:多模态视频生产工具打开新周期内容生态方式 - 技术平权使内容创作门槛下降,带来内容社区生态繁荣和多元变现 [14][15][16] - 多模态视频生成技术将降低创作门槛,形成下一代内容生态 [17] - 快手可灵有望带领快手经历三阶段发展,打开新流量和商业化天花板 [19] 一、视频生成模型进入高速发展期,可灵、Sora、Veo2 综合实力领先 1.1 视频生成模型以 DiT 为主流架构,以快手为代表的国内厂商快速取得技术突破 - 视频生成模型以 DiT 为主流架构,发展迅速,快手可灵等采用该架构 [22] - Sora 发布后国内厂商迅速追赶,快手 4 个月后上线可灵并快速迭代 [23] - 视觉质量和精确控制是核心指标,可灵在这两维度综合表现领先 [26][27][31] 1.2 现为视频多模态阶段一,除技术外,可跟踪产品和商业化边际变化 - 24 年主流产品快速迭代,快手迭代速度领先,预期 25 年加快 [33] - 视频生成产品访问量快速增长,海螺、可灵、Sora 领先,但与 Top AI 产品有差距 [37][38] - 行业商业化处于早期,以工具属性收费为主,未来变现方式更具想象空间 [44][45] 二、快手可灵领先地位,期待多模态视频进一步发展 2.1 技术基因不容小觑,可灵持续领先下有望顺利转型 AIGC 内容社区 - 快手早期凭借 GIF 动图工具技术转型短视频社区,可灵有望助其转型 AIGC 社区 [49] 2.2 快手战略聚焦+组织架构统一协调,带来高效执行贯彻 - 快手将文生视频模型提到战略级,算力和卡全力支持可灵 [51] - 可灵团队核心人员稳定,经验丰富、技术过硬,组织架构优势带来高效执行力 [52] 2.3 国内短视频数据具备优势,可灵有望持续领先 - 快手数据量和质量有优势,视频数据资源是拉开迭代差距的重要因素 [54] - 国内短视频厂商数据在未来短内容需求下适配性或更好 [54] 三、公司流量稳健,基本面稳定,提供较好安全边际 - 快手流量稳健,MAU、DAU 增长,用户粘性高 [58] - 25 年预计电商 GMV 增速 13.5%,总收入同比增长 10.9% [64] - 预计 25 年毛利率提升到 56.5%,Non - GAAP 净利润为 201 亿 [66] 投资建议 - 持续关注视频生成模型技术迭代和可灵优势,以及 AI 对主业赋能 [68] - 采用 PE 估值法,维持 25 年 15xPE 估值,目标价 75.96 港元/股,维持“买入”评级 [4][69]