阿里电影级视频模型万相2.6系列上线，功能比Sora2还全，人人都能当导演

通义万相2.6系列模型发布 - 阿里巴巴于12月16日发布了新一代通义万相2.6系列模型，此次更新并非单点升级，而是同时上线了5款新模型，覆盖文生视频、图生视频、参考生视频、图像生成和文生图等多个关键环节 [2] - 通义万相是阿里“通义大模型家族”的一员，初代于2023年7月上线，以图像生成能力为主并率先面向企业用户开放测试，经过2年多发展，于今年9月在国内率先发布音画同步的视频生成模型万相2.5 [2] - 万相2.6已成为国内首个支持角色扮演功能的视频模型，画质、音效、指令遵循等能力进一步提升，单次视频时长达到国内最高的15秒，并新增了角色扮演和分镜控制功能 [2] - 万相2.6也是全球功能最全的视频生成模型，比Sora2还多了一项“多音频驱动生视频”功能，该功能能让多路音频作为驱动信号影响人物动作、口型和镜头节奏，实现更自然的音画同步 [4] - 目前，万相2.6已同步上线阿里云百炼平台和万相官网，所有人可直接在官网体验，企业用户可通过阿里云百炼调用模型API，千问APP也将于近期上线该模型 [5][12] 模型技术能力与创新 - 在模型结构上，通义万相集成了多项创新技术，可对输入参考视频进行多模态联合建模与学习，提取时序信息的主体情绪、姿态、多角度视觉特征以及音色、语速等声学特征，在生成阶段作为参考条件控制，实现从画面到声音的全感官全维度一致性保持与迁移 [7] - 模型支持单人和多人的表演 [7] - 在分镜控制上，通义万相能通过高层语义理解，将原始输入构建为具备完整故事线与叙事张力的专业级多镜头段落，并在多镜头切换过程中保持核心主体、场景布局和环境氛围的统一建模，确保全片在内容、节奏和氛围上的高一致性 [9] - 万相2.6可将用户简单的提示词转换为多分镜脚本，生成包含多个镜头的连贯叙事视频，并保持多镜头间的主体、场景等关键信息的一致性 [9] 应用场景与用户体验 - 万相2.6的角色扮演功能让普通用户也能在影视级画面里表现精湛演技，用户上传一段个人视频并输入提示词，模型能快速完成分镜设计、角色演绎、画面配音等工作，生成镜头叙事完整、电影级运镜的短片，仅需几分钟即可完成 [9] - 面向广告设计、短剧制作等专业场景，通过输入连续提示词，万相能生成一段完整叙事的短片，例如输入广告创意提示词，可生成包含人物角色和商品的广告视频，并在多镜头切换下保持主体、场景等关键信息的一致性 [11] - 万相模型家族已支持文生图、图像编辑、文生视频、图生视频、人声生视频、动作生成、角色扮演及通用视频编辑等10多种视觉创作能力，已广泛应用于AI漫剧、广告设计和短视频创作等领域 [12] 图像生成能力升级 - 在图像生成层面，万相2.6的变化不仅体现在画面质量提升，更集中在风格控制与表达稳定性上，模型对艺术风格关键词的理解更加细致，能在保持整体风格统一的前提下处理不同风格之间的融合与过渡，使色彩、肌理、笔触细节具备可控性和完整性 [13] - 在人像生成方面，万相2.6进一步压低了常见的“AI感”，写实人像的肤质、神态和光影关系更加自然，构图与视角也更接近真实拍摄逻辑，使生成结果更容易直接进入设计或传播场景 [13] - 模型对中英文长文本的理解能力被引入到图像生成中，可以根据较长、结构化的文字内容生成图文协调的海报、插画或信息图表，让“内容—视觉”之间的对应关系更加清晰 [15] - 对于历史文化题材和知名IP，万相2.6也表现出更强的还原能力，能在尊重原有语境的基础上进行生成，为创意表达提供更大发挥空间 [19] 行业背景与活动 - 文章提及AI重塑组织的浪潮已至，Agentic企业时代正式开启，AI正深度融入业务核心、驱动组织形态与运作逻辑全面革新 [21] - 12月19日至20日，AICon全球人工智能开发与应用大会（北京站）即将举行，大会将聚焦大模型训练与推理、AI Agent、研发新范式与组织革新等前沿议题 [21]