通义大模型发布新一代端到端语音交互模型

公司技术发布 - 通义大模型于12月23日发布了新一代端到端语音交互模型Fun-Audio-Chat [1] - 该模型定位为能理解话语、感知情绪并帮助用户完成任务的AI语音伙伴，超越了简单的聊天功能 [1] 模型技术架构与性能 - 新模型采用端到端S2S架构，可直接从语音输入生成语音输出，无需ASR、LLM、TTS多模块拼接，从而实现了更高效率和更低延迟 [1] - 模型采用Shared LLM层以5Hz帧率进行高效处理，同时SRH以25Hz帧率生成高质量语音 [1] - 该技术架构使GPU计算开销降低了近50% [1] 模型训练与应用场景 - 模型的训练内容覆盖了音频理解、语音问答、情感识别、工具调用等多种真实场景，旨在使模型更“接地气” [1]