阿里一口气发7款大模型，这或是最被低估的AI“杀手锏”

核心产品发布 - 阿里云在2025杭州云栖大会上发布通义万相Wan2.5-preview视觉生成大模型实现音画一体视频生成功能 [2] - 该模型采用原生多模态架构支持文生视频、图生视频、文生图和图像编辑四大功能 [2] - 模型全面支持图像、文本、音频或组合输入形式降低使用门槛 [5] 技术能力升级 - 视频生成时长从5秒提升至10秒支持更完整剧情叙事 [7] - 支持24帧/秒的1080P高清视频生成满足电影级画质需求 [8] - 首次实现原生音画同步生成告别"哑剧"时代 [6][8] - 采用国内首个原生多模态架构将声音、图像、文本作为统一语料训练 [10] - 图像生成在美学质感、文字稳定性、图表生成和指令遵循方面全面升级 [10] 应用场景表现 - 生成语音能精准匹配人物嘴型支持复杂运镜指令 [4][8] - 在数字人、电影创作、远程教育等领域具有应用潜力 [5] - 支持从电影情节到产品播报的多样化内容生成人声与视频高度匹配 [13][14][15] - 能够模拟真实世界音效如马蹄声、网球撞击声等环境音 [19][20][21][22] - 可生成高匹配度背景音乐深度理解场景风格如嘻哈节奏 [23][24] 生态与市场影响 - 用户可通过阿里云百炼平台API或通义万相官网直接体验 [6] - 通义万相模型家族累计生成3.9亿张图片和7000万个视频 [26] - 自2025年2月以来已开源20多款模型开源社区下载量超3000万 [27] - 成为开源社区最受欢迎的视频生成模型之一 [27] - 性能赶超Sora 是全球开源大模型领域的领先者 [26]