多说话人对话合成

搜索文档
小红书智创音频技术团队:SOTA对话生成模型FireRedTTS-2来了,轻松做出AI播客!
机器之心· 2025-09-14 03:07
模型发布与定位 - 小红书智创音频技术团队发布新一代对话合成模型FireRedTTS-2 聚焦现有方案灵活性差、发音错误多、说话人切换不稳、韵律不自然等痛点 通过升级离散语音编码器与文本语音合成模型全面优化合成效果 [2] - 在多项主客观测评中 FireRedTTS-2均达到行业领先水平 为多说话人对话合成提供了更优解决方案 [2] 技术性能与效果 - FireRedTTS-2基于数百万小时语音数据训练 对重音、情绪、停顿等细节把握到位 听感自然流畅 [5] - 相比闭源的豆包 FireRedTTS-2的播客生成自然度可与之媲美 还支持豆包不具备的音色克隆能力 只需提供每个发音人的一句语音样本即可模仿其音色与说话习惯自动生成后续整段对话 [5] - 在开源对话生成模型中(如MoonCast、ZipVoice-Dialogue、MOSS-TTSD) FireRedTTS-2在多说话人音色切换的稳定性与韵律自然度方面处于行业领先 [6] - 支持随机音色生成 开箱即用地覆盖中文、英语、日语、韩语、法语等多种语言 [7] 技术架构创新 - 离散语音编码器以12.5Hz低帧率输出 1秒仅对应12.5个标签 缩短语音序列长度提升速度 缩小与文本序列的长度差距降低大语言模型建模难度 [14] - 编码器在训练时引入预训练模型提取的语义特征 对离散标签进行语义监督 使标签携带更丰富的语义信息 帮助模型更容易学会从文本到语音的映射 支持流式解码可实时输出音频 [14][15] - 离散语音编码器先在约50万小时的多样化语音数据上训练提升泛化能力 再在其中约6万小时的高质量语音上继续训练优化重建音质 [16] - 文本语音合成模型采用文本-语音混排格式 支持逐句生成便于后续编辑与多场景适配 混排格式将对话文本与语音组织为带说话人标签的序列 [17] - 采用双Transformer设计 1.5B参数的Backbone Transformer负责建模混排序列中语音的粗粒度信息 0.2B参数的Decoder Transformer补充语音中的声学细节 充分利用对话上下文生成更自然连贯的对话语音 [18][26] - 支持低首包延迟 配合离散语音编码器的流式解码实现更快起播 [18] - 采用两阶段训练 先在110万小时单句语音上预训练夯实合成基础 再用30万小时对话语音继续训练覆盖2–4人对话场景 可稳定生成高质量对话语音准确处理说话人切换保持上下文一致与自然韵律 [18] 性能评测结果 - 在自建的中英文对话测试集上与MoonCast、ZipVoice-Dialogue、MOSS-TTSD等系统比较 FireRedTTS-2在主客观指标上均为最优 [20] - 中文对话测试结果:CER为2.08(MoonCast为3.81 ZipVoice-Dialogue为2.93 MOSS-TTSD为3.99) SIM为0.753(MoonCast为0.658 ZipVoice-Dialogue为0.736 MOSS-TTSD为0.659) MCD为7.99(MoonCast为11.37 ZipVoice-Dialogue为9.29 MOSS-TTSD为8.32) CMOST为0.0(MoonCast为-0.21 ZipVoice-Dialogue为-0.18 MOSS-TTSD为-0.16) [20] - 英文对话测试结果:WER为3.16(MoonCast为3.81 ZipVoice-Dialogue为11.71 MOSS-TTSD为5.43) SIM为0.703(MoonCast为0.620 ZipVoice-Dialogue为0.701 MOSS-TTSD为0.550) MCD为9.06(MoonCast为10.96 ZipVoice-Dialogue为9.88 MOSS-TTSD为9.25) CMOST为0.0(MoonCast为-0.21 ZipVoice-Dialogue为-0.31 MOSS-TTSD为-0.13) [20] - 显著降低发音错误 避免说话人混淆 具有更真实的韵律表现 [20] - 只需约50小时的特定播客说话人录音即可完成音色定制 使对话合成的自然度逼近真人 [22] - 微调后CER仅为1.66% 在主观听评中28%的测例被认为比真实播客录音更自然 另有28%难以区分二者 总体56%的测例表明其自然度已达到或超过真实录音 [22] 应用前景与行业意义 - 为AI播客等对话合成应用提供了工业级解决方案 [6] - 既能满足创新玩法的探索 也可作为高效的生产力工具为下游任务生成高质量的对话/非对话音频数据 [7] - 随着多模态大模型的快速发展 全行业对数据的需求与日俱增 尤其在语音识别与对话交互领域需要大规模的多音色、跨语言音频数据 FireRedTTS-2能有效满足这一需求 [7] - 未来团队将持续优化FireRedTTS-2 拓展支持的说话人人数与支持的语种 并解锁可控音效插入等更多玩法 [25]