公司产品发布 - 阿里发布了新一代通义万相2.6系列模型,该模型一次性覆盖文生视频、图生视频、参考生视频、图像生成和文生图,是目前全球功能最全的视频生成模型 [1] - 该模型在视频创作上推出了Sora2目前还没有的多音频驱动生视频能力,并同步引入了音画同步、多镜头叙事等能力 [2] 视频生成核心能力升级 - 视频参考生成:支持视频参考,模型能提取其中主体的外观与音色,并结合提示词生成新视频内容,可用于单人表演或双人合拍等场景 [12] - 多镜头叙事:支持多镜头生成,保持镜头间关键信息一致,可通过简单提示词完成分镜 [12] - 自然声画同步:在多人对话等复杂场景中,语音与动作匹配更稳定 [12] - 长视频生成:单条视频最长15秒(参考生视频最长10秒) [12] - 基础能力提升:在指令理解与执行、画面真实度及整体美学表现等方面均有加强 [12] 视频生成能力实测表现 - 视频参考生成效果:在主体一致性和提示词理解上做得比较扎实,能实现1:1还原,口型匹配较为准确,动作、表情与台词语义能够对应,但生成结果中的声线并未完全沿用原视频 [11] - 声画同步效果:在双人剧情对话等复杂场景中,动作与语言能形成完整互动,模型能补全台词并添加与动作匹配的拟声细节,能区分不同角色的情感变化,但在多角色台词绑定上仍有提升空间,偶尔会出现角色说错台词或字幕语音未完全对齐的情况 [13] - 画面质感与美学:在画面质感和美学呈现方面有提升,能准确呈现如“第一人称赛博城市飞行视角”等复杂提示词,生成具有电影级画面质感、节奏紧凑、科幻感强烈的视频 [13][14] - 多镜头叙事效果:对多镜头叙事的理解较为到位,镜头中的主要动作和转场均能得到完整呈现,镜头衔接自然,但对于提示词中描述不够充分的抽象动作(如“探头观察”)仍存在理解难度 [15][17][18] 图像生成能力升级 - 图片生成功能在美学理解、人像生成、文字处理、历史文化及知识IP语义理解上带来新升级 [18] - 风格化能力:能及时掌握并生成新的美学风格,如生成具有高饱和色块拼接、像素风处理的“星露谷风格”插画 [19][20][22] - 人像生成能力:在人像光影方面的处理更好,能生成具有清晰明暗分区、面部结构立体、肤质细节自然、具有电影感和空间层次感的半身人像 [22][24] - 中英文处理与排版能力:能生成中英文对照排版的美食宣传海报,在构图排版上判断靠谱,主体突出,文字层级分明,达到成品水准 [25][27] 整体评价与可用性 - 模型在音视频参考、声画同步、风格理解方面表现不错,但在个别场景下仍会出现画面逻辑偏差、多角色台词对不上、复杂动作理解不到位等小问题 [7][28] - 对于日常短视频创作和二创而言,模型已经是可用且好用的水平,用户敢多跑几次而不用每次都碰运气 [7][28][29] - 模型还在多图融合、美学要素迁移、历史知识语义理解上做了提升 [30]
全球功能最全的视频生成模型来了
量子位·2025-12-17 10:00