告别抽卡!一手实测字节刚放出的视频模型Seedance 1.5 pro
机器之心·2025-12-18 09:08

产品发布与核心升级 - 火山引擎在2025年冬季FORCE原动力大会上正式发布了新一代豆包视频生成模型「Seedance 1.5 pro」[2] - 该模型最大更新在于实现了原生音画高精同步,覆盖环境音、动作音、合成音、乐器音、背景音乐及人声等全场景,音画同步率全球领先[5] - 模型能够更好地遵循复杂指令,支持更多外国语言与中文方言的自然对白,更精准地捕捉运动细节,叙事理解与连贯性更强,人物情绪与表情呈现也更加细腻[5] 技术性能与评估 - 在视频能力评估中,Seedance 1.5 pro在文本生成视频的对齐度指标上取得领先,并在其他多项指标上位居前列[6] - 在音频能力评估中,Seedance 1.5 pro在生成质量、同步性、对齐度、表现力等多项指标上全方位超越谷歌Veo 3.1和昆仑万维Kling 2.6[6] - 相较于前代Seedance 1.0 pro,新版本完成了从视频生成模型到原生音视频联合生成基础模型的跃迁[54] 核心功能与实测表现 - 模型支持中文、英文、小语种及16种中文方言,包括陕西话、四川话、东北话、台湾腔、闽南语、粤语等[13][14] - 能够生成多人多语言对白视频,实现口型毫秒级精准对齐,对话语气、气口和语调自然[13][25] - 在影视级叙事张力上表现突出,能根据单张图像生成细腻的多种人物情绪表情,如开怀大笑、愤怒、悲伤、疲惫等[31][32][33] - 擅长处理复杂动态场景,如赛车疾驰、战争场面、第一人称追逐戏,运动幅度大且流畅,能精准捕捉多层次运动元素和环境音效[35][37][38] - 具备商业广告制作潜力,能严格遵循长而复杂的提示词,处理复杂空间变化,精准还原极简风格、科技感等抽象概念和品牌调性[40][41] 技术架构与创新 - Seedance 1.5 Pro在架构层面原生支持音视频联合生成,包括文本到音视频生成和基于图像引导的音视频生成[47] - 关键技术融合了统一的多模态联合生成架构、全面的音视频数据框架、精细化的后训练优化策略和高效的推理加速方案[49] - 在框架层面,提出基于MMDiT架构的统一建模框架,支持跨模态深度交互,确保视听信号时间精准同步与语义高度一致[50] - 在数据层面,构建了以实现音画一致、运动表现力为核心目标的高质量音视频数据框架[51] - 在后训练阶段,引入了为音视频场景定制的基于人类反馈的强化学习算法,使训练速度提升近三倍[52] - 在推理阶段,通过优化蒸馏框架和基础设施,在保持性能前提下实现了10倍以上的端到端推理加速[52] 产品可用性与稳定性 - Seedance 1.5 pro已上线火山方舟体验中心,预计12月23日通过火山引擎为企业用户提供API,个人用户可通过即梦网页版和豆包App使用[8] - 模型表现出极高的指令遵循度,基本不需要用户反复“抽卡”式生成,首次生成的视频效果往往最佳[43] - 对于日常内容创作、轻量级商业广告以及AI短剧制作,Seedance 1.5 Pro被认为完全够用[44] 行业意义与发展阶段 - Seedance 1.5 pro的发布是自2024年初Sora亮相以来,视频生成领域快速演进的一个缩影[58] - 行业技术已从“人类直觉可接受”阶段,开始真正迈向“创作级、生产级”阶段,使小团队能完成过去需影视工作室完成的内容[59] - 新版本在补全模型能力的同时,加快了体系化竞争的步伐,持续缩小模型输出与真实视频制作需求之间的差距[59] - 业界对视频生成领域有更高期待,例如马斯克希望其模型Grok能在2026年底前产出至少能看的电影[60] - 预计未来,视频生成大模型将以更成熟的方式参与从创意生成到内容制作的全过程,使用比重和承担角色将继续提升[61]