文章核心观点 - 公司在火山Force原动力大会上发布了其新一代视频生成模型Seedance 1.5 Pro,该模型在音画同步、中文与方言能力、情感表现力等方面实现了显著突破,达到了广告级甚至影视级别的输出效果,有望推动AI视频的工业化进程和创作理念变革 [3][35][36][37][38] 模型发布与获取 - 新模型Seedance 1.5 Pro已正式上线,用户可通过豆包、即梦或火山方舟平台体验 [7] - 在豆包平台,用户需在“视频生成”或“照片动起来”功能中选择1.5 Pro模型 [7] - 在即梦平台,用户需在“生成视频”功能中选择3.5 Pro模型,该模型基于Seedance 1.5 Pro能力,目前支持文生图、单参考和首尾帧生成 [8] - 火山方舟平台提供了京剧、名画等特定玩法的体验 [9] - 模型的API接口即将开放,目前已可预约 [12] 核心能力一:音画同步 - 模型在主体说话时的唇形一致性上表现优异,能够完美对口型 [13] - 模型能够理解并执行复杂的提示词,包括指定的说唱歌词、音效节奏(如100BPM的语速)等,实现精准的音画匹配 [13] - 模型支持多人对话场景,能够根据提示词中规定的对话内容和顺序,准确地将台词分配给不同角色 [16][17] - 模型具备多分镜音画同步能力,结合其最高支持12秒视频生成的特性,用户可通过“参考图+文生分镜”的方式快速生成广告短片等内容 [16] - 模型能够生成包含完整剧情、镜头切换、运镜和音效的12秒短片,所有元素匹配得当 [18][19] - 模型目前对“罐头笑声”等特定文化概念的理解尚有不足 [14] 核心能力二:中文与方言能力 - 模型具备强大的多语言输出能力,可无障碍生成英语、日语、韩语、西班牙语等内容 [21] - 模型的中文及方言能力在所有模型中处于“断档的强”的领先地位,是其最强的技能点 [23] - 模型生成的粤语内容已具备一定的韵味和氛围感,声音效果与细节准确性非常高,可达到约80%的成品水准 [23][24] - 模型还能自如生成四川话、上海话、东北话、台湾腔等多种方言,并支持在视频中进行方言切换与互动 [25] - 使用技巧:为获得最佳效果,需向模型提供目标语言或方言的原始文本提示词 [26] 核心能力三:情感表现力 - 模型的情感表现力大幅提升,能够根据不同的情境设定,对同一句台词演绎出完全不同的感觉 [27] - 模型能够生动演绎诸如“嘴角颤抖”、“一声冷哼”、“皮笑肉不笑”等细微的面部表情和情绪细节,声线也会随之变化,极具代入感 [30] - 仅凭一句台词,不加其他提示,模型也能自动配上一段合适的表演,实现“一条过” [30] - 模型的情感表现力是配乐、音效、运镜等多种能力综合作用的结果,能够生成沉浸感极强的视频片段,例如第一视角驾驶战斗机的场景 [33] - 该能力使得生成的内容可直接作为剪辑素材,大幅提升了制作效率 [34] 未来展望与行业影响 - 公司透露了一项未上线的“draft样片”功能,该功能可先生成低分辨率样片供用户确认关键元素,再生成高清成片,旨在减少“抽卡”次数,节约成本与时间 [35] - Seedance 1.5 Pro的更新使AI视频实现了画面、台词、音效、节奏、情绪的深度融合,输出可直接用于剪辑的广告级或影视级素材 [37] - 该技术进步被视为对AI视频工业化的“巨大提升”,将改变创作方式,促使声音与画面被一同纳入创作考量,可能引发新的提示词方式、视频形态、制作流程乃至生产力变革 [38]
实测字节Seedance 1.5 Pro,能直出方言的AI视频也来了。
数字生命卡兹克·2025-12-18 04:33