通义端到端语音交互模型Fun-Audio-Chat发布

核心观点 - 通义大模型发布新一代开源端到端语音交互模型Fun-Audio-Chat-8B，主打“语音对语音”多轮对话能力，在多项评测中取得开源模型领先成绩，并已同步在多个平台开源 [1] 模型发布与技术定位 - 模型为通义百聆语音模型系列中首个主打“语音对语音”交互能力的模型，支持用户直接通过语音进行多轮对话 [1] - 模型在OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMSU、SpeechFunctionCall等多项语音与多模态评测中取得当前开源模型中的领先成绩，整体性能超过多款同参数规模模型 [1] - 该模型强调端到端语音交互能力，可直接用于语音聊天、情感陪伴、智能终端交互以及语音客服等场景 [1] - 与此前已发布的语音转文字模型Fun-ASR及文字转语音模型Fun-CosyVoice3不同，新产品聚焦于端到端交互 [1] 技术架构与训练创新 - 公司披露两项关键技术路径：Core-Cocktail两阶段训练策略，通过分阶段引入语音与多模态能力再与原有文本大模型参数融合微调，以降低对原有语言理解能力的影响，缓解“灾难性遗忘”问题 [2] - 引入多阶段、多任务的偏好对齐训练，使模型在真实语音对话中能更准确捕捉语义与情绪线索，提升对话自然度 [2] - 模型采用压缩—自回归—解压缩的双分辨率端到端架构，将音频帧率降低至约5Hz，在保证语音质量的前提下可节省近50%的GPU计算开销 [2] 行业影响与战略意义 - 模型的开源标志着通义大模型在语音交互方向进一步向“低算力、强对话”的实用化阶段推进 [2] - 该设计在当前语音大模型普遍算力成本较高的背景下，具有一定工程意义 [2] - 为开源语音大模型在真实场景中的部署提供了新的技术参考 [2]