可灵2.6模型推出“音画同出”能力 重构AI视频创作工作流
央广网·2025-12-05 06:47

可灵2.6模型核心升级 - 公司推出视频生成2.6模型 提供里程碑式的“音画同出”能力 能够在单次生成中输出包含自然语言、动作音效以及环境氛围音的完整视频 彻底改变了传统“先无声画面、后人工配音”的工作流程 [1] - 该模型升级了文生音画、图生音画两大功能 输入文本或图片结合提示词文本均可直接生成带语音、音效及环境音的视频 生成视频长度最长支持10秒 语音当前支持生成中文以及英文 [4] 技术性能与优势 - 通过对物理世界声音与动态画面的深度语义对齐 模型在音画协同、音频质量和语义理解上表现亮眼 [6] - 音画协同方面 生成的视频在语音节奏、环境音与画面动作上紧密呼应 实现了对画面动态与声音节奏的深度对齐 避免了音画割裂体验 [6] - 音频质量方面 在支持人声、音效、环境声等多类型声音生成的基础上 生成的音频音质更干净、层次更丰富 整体听感更接近真实的混音效果 [6] - 语义理解方面 模型对多种场景下的文本描述、口语表达和复杂剧情有较强的语义理解能力 能够更准确地把握创作者意图 输出逻辑更严密的内容 同时 在中文语音生成效果上保持全球领先 [6] 应用场景与行业影响 - 模型支持的声音类型包括说话、对话、旁白、唱歌、Rap、环境音效、混合音效等多种声音的单独或混合生成 能够广泛应用于广告营销、自媒体、电商等行业视频内容创作 [7] - 在广告营销行业 模型可一键生成含有旁白介绍、演员对白、商品展示音效等综合声音效果的广告短片 极大降低广告片拍摄成本并提升效率 [7] - 在自媒体领域 通过多人对白能力 创作者可以创作访谈节目、剧情演绎、搞笑短剧等内容 借助音乐表演能力可进行唱歌、说唱表演、乐器演奏等类型的内容创作 大幅度降低创作成本与难度 [7] - 在电商领域 通过单人独白、旁白解说等能力 能够完成商品展示、产品讲解等视频内容创作 提升商家的经营效率 [8] - 模型的推出进一步降低了内容创意行业视频创作的成本与难度 [8]