多模态视频生成 - 财报，业绩电话会，研报，新闻 - Reportify

多模态视频生成

搜索文档

昆仑万维全新SkyReels正式焕新上线

证券日报网· 2025-11-04 07:41

产品发布与定位 - 昆仑万维旗下AI视频创作平台SkyReels于11月4日正式上线Web端与移动端App [1] - 平台核心定位为一站式与多模态AI创作平台独家优势在于聚合全球顶尖AI多模态模型 [1] - 平台集成图片生成视频生成数字人音乐生成等多种AI创作方式 [1] 核心技术能力 - 此次更新搭载自研模型SkyReels V3 代表一系列多模态视频生成模型 [1] - 模型基于Multi-modal In Context Learning框架预训练并通过子任务精调优化 [1] - 核心更新能力包括无限画布数字人模板功能专家Agent 视频延长和风格化 [1] - 所有AI功能和全球顶尖模型集成于同一创作空间实现多模态内容无缝融合 [2] - 用户可通过AI编辑 Agent Chat和拖拽三种方式在无限画布上自由组合素材 [2] 智能系统与交互创新 - 平台推出Agentic Copilot模式提供双核智能系统支持多模态输入输出 [2] - 未来将实现Super Agent（1个全能创意助手）与Expert Agents（28位行业专家）的相互协作 [2] - SkyReels V3是业内首个支持单镜头多人多轮对话的数字人模型 [2] - 模型能精确控制每个角色的说话时机与节奏实现多角色自然流畅互动 [2] 数字人功能与应用场景 - 数字人功能覆盖全场景对口型支持单人图片驱动视频驱动及多人多轮对话的图片驱动对口型 [3] - 支持最长4分钟的连续对口型并具备丰富的运镜组合 [3] - 模型可应用于影视级对话场景电商双人口播游戏素材创作等多种专业场景 [3] - 音频驱动的视频生成模型首次具备多人场景的生成能力 [3] 行业趋势与未来展望 - 视觉/音频等生成模型预计保持高速迭代与更新 [3] - 模态之间的融合创作将进一步加速模型效果与可控性将持续提升 [3] - 内容生成成本预计持续降低 [3]

昆仑万维(SZ:300418)

多模态视频生成

多模态视频生成

国泰海通｜传媒：Sora2正式发布，加快推动AI视频发展

国泰海通证券研究· 2025-10-08 13:33

产品发布与核心特性 - OpenAI于9月30日正式发布视频生成模型Sora 2及同名IOS社交应用"Sora" [1] - Sora 2在视频真实性、音频同步和精细控制上实现重大突破，支持生成10秒沉浸式内容 [1] - Sora 2 Pro版本生成时长提升至15秒，画面分辨率更高，质感更接近电影 [1] - Sora App已成功登顶苹果美国"热门免费应用"榜单，目前采用邀请制，优先在美加开放 [1] 技术演进与行业影响 - 多模态视频生成逐步走向全局生成，通过文字、图片、视频提示词进行凭空生成，不依赖外部素材，可赋能传统视频制作工作流 [2] - 视频生成模型在稳定性、可控性、丰富度、生成时长方面持续提升 [2] - 该技术对内容制作呈现有效的降本增效，尤其在动画内容方面 [2] 应用场景与商业模式创新 - Sora App定位为共创平台，通过创新"Cameo"功能将用户肖像无缝融入生成场景，重新定义社交互动与内容创作 [1] - 在PGC方面，Sora 2将提供更具体的控制选项，让角色版权方自主决定是否允许用户使用其角色进行二次创作，并探索收费模式，可能形成"创作者+IP方+平台"的分账生态 [2] - 在UGC方面，AI视频可在娱乐社交、电商营销、教育等场景实现广泛应用，在创意视频、品牌广告等领域具备价值 [2] 投资方向 - 投资机会主要涉及四类公司：平台和模型公司、IP资源公司、内容多元创新公司、其他多元应用公司 [3]

多模态视频生成

Artificial Intelligence

多模态视频生成

Artificial Intelligence

阿里开源Wan2.2-S2V模型：静态图与音频合成电影级数字人视频

搜狐财经· 2025-08-27 15:54

产品发布与功能 - 阿里巴巴推出多模态视频生成模型通义万相Wan2 2-S2V 用户通过静态图片和音频可生成分钟级电影级别数字人视频支持面部表情自然口型同步和肢体动作流畅 [1] - 模型支持真人卡通动物和数字人等多种图片类型涵盖肖像半身和全身画幅用户上传音频即可使主体形象说话唱歌或表演 [1] - 引入文本控制功能用户可通过输入Prompt对视频画面个性化调整实现主体运动和背景变化多样化例如上传人物弹钢琴照片歌曲和描述文字可生成完整钢琴演奏视频 [2] 技术架构与创新 - 模型基于视频生成基础模型结合文本引导全局运动控制和音频驱动细粒度局部运动实现复杂场景下音频驱动视频高效生成 [3] - 采用AdaIN和CrossAttention两种控制机制实现更准确动态的音频控制效果通过层次化帧压缩技术将历史参考帧长度拓展至73帧保障长视频生成稳定性和高质量 [3] - 训练使用超过60万个片段的音视频数据集通过混合并行训练进行全参数化训练支持多分辨率训练与推理适应竖屏短视频和横屏影视剧等不同场景需求 [3] 市场表现与开源生态 - 模型在Hugging Face和魔搭社区上架用户可直接下载或通过官网体验 [1] - 自2月以来通义万相已开源文生视频图生视频和首尾帧生视频等多款模型下载量超2000万次成为开源社区最受欢迎视频生成模型之一 [4] - 实测显示Wan2 2-S2V在视频质量表情真实度和身份一致性等核心指标上取得同类模型最佳成绩 [4]

多模态视频生成

通义万相Wan2.2 - S2V

多模态视频生成

通义万相Wan2.2 - S2V

阿里开源视频生成模型Wan2.2-S2V

证券时报网· 2025-08-26 13:59

公司技术发布 - 阿里开源多模态视频生成模型通义万相Wan2 2-S2V [1] - 模型仅需一张静态图片和一段音频即可生成电影级数字人视频 [1] - 生成视频的面部表情自然且口型一致 [1] 产品性能特征 - 单次生成的视频时长可达分钟级 [1]

阿里巴巴(US:BABA)

多模态视频生成

通义万相Wan2.2-S2V

多模态视频生成

通义万相Wan2.2-S2V

多模态视频生成模型通义万相“Wan2.2-S2V”正式开源

第一财经· 2025-08-26 13:57

公司技术发布 - 全新多模态视频生成模型通义万相"Wan2.2-S2V"正式开源 [2] - 模型仅需一张静态图片和一段音频即可生成电影级数字人视频 [2] - 生成视频具有面部表情自然口型一致肢体动作丝滑的特点 [2] - 模型单次生成的视频时长可达分钟级 [2] - 模型已在通义万相官网上线 [2] 行业应用影响 - 模型大幅提升数字人直播行业的视频创作效率 [2] - 模型大幅提升影视制作行业的视频创作效率 [2] - 模型大幅提升AI教育等行业的视频创作效率 [2]

多模态视频生成

Artificial Intelligence

通义万相"Wan2.2 - S2V"

多模态视频生成

Artificial Intelligence

通义万相"Wan2.2 - S2V"

腾讯混元推出全新多模态视频生成工具现已开源并上线官网

搜狐财经· 2025-05-10 14:48

腾讯混元推出多模态视频生成工具Hunyuan Custom - 腾讯混元于5月9日正式推出并开源全新多模态定制化视频生成工具Hunyuan Custom [1] - 该工具基于混元视频生成大模型Hunyuan Video打造 [1] Hunyuan Custom的核心功能 - 具备强大的多模态融合能力，可同时处理文本、图像、音频、视频等多种输入形式 [3] - 相比传统视频生成模型，在生成质量和控制力方面有显著提升 [3] - 提供多种视频生成模式：单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑 [3] - 单主体生成能力已开源并在混元官网上线，其他能力将于5月内陆续开源 [3] 技术优势 - 突破传统模型在人物一致性和场景变换方面的限制 [3] - 单主体生成模式下，只需上传一张图片和文本描述即可生成连贯自然的视频内容 [3] - 支持多主体视频生成，让多个主体按要求出现在视频里 [3] 扩展应用场景 - 音频驱动模式下可生成数字人直播、虚拟客服、教育演示等场景的音视频同步效果 [4] - 视频驱动模式下支持将图片中的人物或物体自然地替换或插入到任意视频片段中 [4] - 适用于创意植入、场景扩展、视频重构与内容增强等应用 [4]

腾讯控股(HK:00700)

多模态视频生成

Software and Services

混元视频生成大模型(Hunyuan Video)

多模态视频生成

Software and Services

混元视频生成大模型(Hunyuan Video)

图像提供身份，文本定义一切！腾讯开源多模态视频定制工具HunyuanCustom

AI科技大本营· 2025-05-09 09:35

多模态视频生成技术 - 腾讯混元团队推出并开源多模态定制化视频生成框架HunyuanCustom，支持图像、文本、音频和视频等多种输入模态，提供高度可控且高质量的视频生成能力 [1] - 传统图生视频或文生视频模型难以保持人物身份不变，HunyuanCustom通过引入基于LLaVA的图文融合模块和时间级联的图像ID增强机制解决"变脸难题" [3] - HunyuanCustom支持上传照片生成定制化视频内容，支持音频驱动让视频中人物"开口说话"，支持视频输入实现个性化内容植入 [5] 系统架构与性能表现 - HunyuanCustom设计了多个关键模块，在训练与推理阶段实现图像、语音、视频等模态的解耦控制，为多模态生成提供灵活接口 [6] - 在对比测试中，HunyuanCustom在主体一致性（0.627）方面显著领先其他模型，DINO-Sim得分达0.593，整体视频质量评分（DD）为0.71 [9] - 测试对比模型包括VACE、Skyreels、Pika、Vidu、Keling和Hailuo等主流视频定制方法 [8] 技术实现与数据构建 - 团队引入Qwen、YOLO、InsightFace、GroundingSAM2等模型协同构建数据标签体系，覆盖人类、动物、植物、建筑、动画等多个主体类型 [11] - 训练采用Flow Matching框架，结合结构化标注和mask增强策略，提升模型泛化能力与编辑灵活度 [11] - 技术模块包括LLaVA图文交互模块、图像ID增强模块、AudioNet模块和视频驱动注入模块 [11] 产品发布与体验 - HunyuanCustom的单主体生成能力已在混元官网上线，用户可在"模型广场-图生视频-参考生视频"中体验，其他能力将于5月内陆续对外开源 [10] - 提供体验入口、项目官网、代码仓库和技术报告等资源链接 [12]

腾讯控股(HK:00700)

多模态视频生成

混元视频生成大模型（HunyuanVideo）

多模态视频生成

混元视频生成大模型（HunyuanVideo）

腾讯混元发布并开源视频生成工具HunyuanCustom，支持主体一致性生成

快讯· 2025-05-09 04:22

腾讯混元团队发布多模态视频生成工具 - 腾讯混元团队于5月9日发布并开源多模态定制化视频生成工具HunyuanCustom [1] - 该工具基于混元视频生成大模型(HunyuanVideo)打造 [1] - 在主体一致性效果方面超过现有开源方案，可媲美顶尖闭源模型 [1] HunyuanCustom技术特点 - 融合文本、图像、音频、视频等多模态输入生成视频的能力 [1] - 具备高度控制力和生成质量的智能视频创作工具 [1]

腾讯控股(HK:00700)

多模态视频生成

多模态视频生成

快手-W：看好快手可灵卡位，多模态视频生成全球领先-20250317

东方证券· 2025-03-16 08:23

报告公司投资评级 - 维持“买入”评级，目标价 75.96 港元/股 [4][5][69] 报告的核心观点 - 多模态视频生产工具带动内容生态新周期可期，快手（可灵）卡位和领先优势值得重视 [8] - 可灵技术目前全球 TOP3（国内 TOP1），尤其在核心评价指标上属全球领先卡位 [8] - 快手可灵能持续领先，原因在于技术能力强、战略重视、资源倾斜、组织架构稳定统一以及高质量视频语料库 [8] - 用户端表现和商业化进展可侧面验证可灵实力，建议持续跟踪边际变化 [8] - 社区流量稳健，商业化、电商业务稳步推进，目前估值处于中位偏低，2025 年基本面稳健，提供较好安全边际 [8] 根据相关目录分别进行总结前言：多模态视频生产工具打开新周期内容生态方式 - 技术平权趋势下内容创作门槛下降，带来内容社区生态繁荣和多元变现模式 [14][15][16] - 多模态视频生成技术进步将降低内容创作门槛，形成下一代内容生态，快手（可灵）卡位和领先优势值得重视 [17] - 可灵若持续领先，有望带领快手经历 PUGC 用户工具产品、平台多场景赋能、新流量平台三阶段 [19] 一、视频生成模型进入高速发展期，可灵、Sora、Veo2 综合实力领先 1.1 视频生成模型以 DiT 为主流架构，以快手为代表的国内厂商快速取得技术突破 - 视频生成模型以 DiT 为主流架构，发展迅速，快手可灵等采用该架构 [22] - Sora 发布后国内厂商迅速追赶，快手 4 个月后上线可灵并快速迭代 [23] - 现有厂商中，Tier1 为谷歌 Veo2、OpenAI Sora、快手可灵等，视觉质量和精确控制是核心指标，可灵在这两维度领先 [26][27][31] 1.2 现为视频多模态阶段一，除技术外，可跟踪产品和商业化边际变化 - 24 年主流产品快速迭代，快手迭代速度领先，预期 2025 年产品迭代加快，可灵有望持续领先 [33] - 视频生成产品访问量快速增长，海螺、可灵、Sora 领先，但与 Top AI 产品访问量量级有差距，行业商业化处于早期阶段 [37][38][44] - 目前商业化以工具属性收费为主，未来随着技术进步和成本降低，商业模式会变化，或出现变现更高的模式 [44][45] 二、快手可灵领先地位，期待多模态视频进一步发展 2.1 技术基因不容小觑，可灵持续领先下有望顺利转型 AIGC 内容社区 - 快手早期凭借 GIF 动图制作技术转型短视频社区，可灵可能帮助快手从移动互联网时代转型 AIGC 内容社区 [49] 2.2 快手战略聚焦+组织架构统一协调，带来高效执行贯彻 - 快手将文生视频模型提到战略级地位，算力和卡全力支持可灵，组织架构稳定统一，决策顺畅，执行力高 [51] - 可灵核心团队经验丰富、技术过硬，核心骨干包括万鹏飞、Xin Tao 等人 [52] 2.3 国内短视频数据具备优势，可灵有望持续领先 - 快手数据量和质量有优势，每天超 4000 万条新视频上传，且对视频进行清晰标注，视频数据资源是拉开迭代差距的重要因素 [54] 三、公司流量稳健，基本面稳定，提供较好安全边际 - 快手流量稳健，MAU、DAU 保持增长，DAU/MAU 稳定，单 DAU 日均时长在 132 分钟 [58] - 25 年预计电商 GMV 增速 13.5%，收入增速 10.9%，在线营销服务、其他业务、直播收入分别为 841/204/365 亿，同比分别变动 15.6%/16.1%/-1.0%，总收入 1410 亿元，同比增长 10.9% [64] - 预计 2025 年毛利率提升到 56.5%，Non - GAAP 净利润为 201 亿 [66] 投资建议 - 持续关注视频生成模型技术迭代和可灵竞争优势，关注 AI 对主业赋能，采用 PE 估值法，维持 25 年 15xPE 估值，对应合理价值 3017 亿 CNY，折合 3269 亿 HKD，目标价 75.96 港元/股，维持“买入”评级 [4][68][69]

快手(HK:01024)

多模态视频生成

多模态视频生成

快手-W：看好快手可灵卡位，多模态视频生成全球领先-20250316

东方证券· 2025-03-16 07:07

报告公司投资评级 - 维持“买入”评级，目标价 75.96 港元/股 [4][5][69] 报告的核心观点 - 多模态视频生产工具带动内容生态新周期可期，快手（可灵）在技术领先、数据资源优势和内容社区生态应用迭代方面的卡位和领先优势值得重视 [8] - 可灵技术目前全球 TOP3（国内 TOP1），尤其在核心评价指标上属全球领先卡位，且具备持续领先的原因，包括技术能力强、战略重视、资源倾斜、组织架构稳定统一以及高质量视频语料库等 [8] - 用户端表现和商业化进展可侧面验证可灵实力，行业商业化目前处第一阶段，可灵+快手及类似 TOP 产品或经历三阶段发展 [8] - 社区流量稳健，商业化、电商业务稳步推进，目前估值处于中位偏低+2025 年基本面稳健，提供较好安全边际 [8] 根据相关目录分别进行总结前言：多模态视频生产工具打开新周期内容生态方式 - 技术平权趋势下内容创作门槛下降，带来内容社区生态繁荣和多元变现模式，AI 驱动下多模态视频生成技术将进一步降低创作门槛，形成下一代内容生态 [14][15][16] - 快手可灵若持续领先，有望带领快手经历从 PUGC 用户工具产品到平台多场景赋能，再到新流量平台的三阶段发展 [17][19] 一、视频生成模型进入高速发展期，可灵、Sora、Veo2 综合实力领先 1.1 视频生成模型以 DiT 为主流架构，以快手为代表的国内厂商快速取得技术突破 - 视频生成模型以 DiT 为主流架构，发展迅速，快手可灵、OpenAI Sora、生数科技 Vidu 等是采用 DiT 架构的典型代表 [22] - Sora 发布后国内厂商迅速追赶，快手 4 个月后上线可灵并保持快速迭代，目前市面上有多个视频生成产品 [23][24] - 现有评价体系围绕生成视频的真实性和美学效果、语义对齐、视觉质量三个维度，视觉质量是更核心指标，快手可灵在视觉质量和精确控制维度表现领先 [26][27][28] 1.2 现为视频多模态阶段一，除技术外，可跟踪产品和商业化边际变化 - 24 年主流产品快速迭代，快手迭代速度领先，目前多数产品生成视频时长和分辨度差异不大，可灵细节控制和场景细致程度更好，预期 2025 年产品迭代速度加快 [33] - 2025 年 2 月视频生成产品访问量和独立访客数上海螺、可灵、Sora 领先，快手可灵美国流量占比仅次于 Sora，视频生成产品与成熟态 ChatBot 应用有差距 [37][38] - 行业商业化处于早期阶段，目前以工具属性收费为主，未来随着技术进步和成本降低，商业模式会变化，可灵 ToC 端起量快，ToB 端是 25 年重点发力方向 [44][45][48] 二、快手可灵领先地位，期待多模态视频进一步发展 2.1 技术基因不容小觑，可灵持续领先下有望顺利转型 AIGC 内容社区 - 快手早期凭借 GIF 动图制作工具属性的单点技术，成功向短视频社区转型并商业化，可灵有可能帮助快手完成向 AIGC 内容社区的转型 [49] 2.2 快手战略聚焦+组织架构统一协调，带来高效执行贯彻 - 快手将文生视频模型重要程度提到战略级地位，算力和卡全力优先支持可灵，可灵团队核心人员合作久，组织架构稳定统一，执行力高效 [51] 2.3 国内短视频数据具备优势，可灵有望持续领先 - 快手数据量有优势，每天有超 4000 万条新视频上传，场景覆盖面丰富，数据质量高，常年对视频进行清晰标注，国内短视频厂商数据在未来短内容需求下适配性更好 [54] 三、公司流量稳健，基本面稳定，提供较好安全边际 - 快手流量稳健，MAU、DAU 保持增长，24Q3 快手 MAU、DAU 分别为 7.14 亿、4.08 亿，yoy+4.3%、5.4%，DAU/MAU 稳定，单 DAU 日均时长 132 分钟 [58] - 25 年预计电商 GMV 增速 13.5%，收入增速 10.9%，在线营销服务/其他业务/直播收入分别为 841/204/365 亿，同比分别变动 15.6%/16.1%/-1.0%，总收入 1410 亿元，同比增长 10.9% [64] - 预计 2025 年毛利率提升到 56.5%，Non - GAAP 净利润为 201 亿 [66] 投资建议 - 持续关注视频生成模型技术迭代和可灵竞争优势，采用 PE 估值法，维持 25 年 15xPE 估值，对应合理价值 3,017 亿 CNY，折合 3,269 亿 HKD，目标价 75.96 港元/股，维持“买入”评级 [4][68][69]

快手(HK:01024)

多模态视频生成

多模态视频生成