视频生成模型 - 财报，业绩电话会，研报，新闻

视频生成模型

搜索文档

量子位· 2025-12-17 10:00

公司产品发布 - 阿里发布了新一代通义万相2.6系列模型，该模型一次性覆盖文生视频、图生视频、参考生视频、图像生成和文生图，是目前全球功能最全的视频生成模型 [1] - 该模型在视频创作上推出了Sora2目前还没有的多音频驱动生视频能力，并同步引入了音画同步、多镜头叙事等能力 [2] 视频生成核心能力升级 - **视频参考生成**：支持视频参考，模型能提取其中主体的外观与音色，并结合提示词生成新视频内容，可用于单人表演或双人合拍等场景 [12] - **多镜头叙事**：支持多镜头生成，保持镜头间关键信息一致，可通过简单提示词完成分镜 [12] - **自然声画同步**：在多人对话等复杂场景中，语音与动作匹配更稳定 [12] - **长视频生成**：单条视频最长15秒（参考生视频最长10秒） [12] - **基础能力提升**：在指令理解与执行、画面真实度及整体美学表现等方面均有加强 [12] 视频生成能力实测表现 - **视频参考生成效果**：在主体一致性和提示词理解上做得比较扎实，能实现1:1还原，口型匹配较为准确，动作、表情与台词语义能够对应，但生成结果中的声线并未完全沿用原视频 [11] - **声画同步效果**：在双人剧情对话等复杂场景中，动作与语言能形成完整互动，模型能补全台词并添加与动作匹配的拟声细节，能区分不同角色的情感变化，但在多角色台词绑定上仍有提升空间，偶尔会出现角色说错台词或字幕语音未完全对齐的情况 [13] - **画面质感与美学**：在画面质感和美学呈现方面有提升，能准确呈现如“第一人称赛博城市飞行视角”等复杂提示词，生成具有电影级画面质感、节奏紧凑、科幻感强烈的视频 [13][14] - **多镜头叙事效果**：对多镜头叙事的理解较为到位，镜头中的主要动作和转场均能得到完整呈现，镜头衔接自然，但对于提示词中描述不够充分的抽象动作（如“探头观察”）仍存在理解难度 [15][17][18] 图像生成能力升级 - 图片生成功能在美学理解、人像生成、文字处理、历史文化及知识IP语义理解上带来新升级 [18] - **风格化能力**：能及时掌握并生成新的美学风格，如生成具有高饱和色块拼接、像素风处理的“星露谷风格”插画 [19][20][22] - **人像生成能力**：在人像光影方面的处理更好，能生成具有清晰明暗分区、面部结构立体、肤质细节自然、具有电影感和空间层次感的半身人像 [22][24] - **中英文处理与排版能力**：能生成中英文对照排版的美食宣传海报，在构图排版上判断靠谱，主体突出，文字层级分明，达到成品水准 [25][27] 整体评价与可用性 - 模型在音视频参考、声画同步、风格理解方面表现不错，但在个别场景下仍会出现画面逻辑偏差、多角色台词对不上、复杂动作理解不到位等小问题 [7][28] - 对于日常短视频创作和二创而言，模型已经是可用且好用的水平，用户敢多跑几次而不用每次都碰运气 [7][28][29] - 模型还在多图融合、美学要素迁移、历史知识语义理解上做了提升 [30]