Workflow
原生全双工
icon
搜索文档
具身智能从此「边听边说」,智源研究院开源原生全双工语音大模型RoboBrain-Audio
机器之心· 2025-09-25 03:20
论文链接:https://arxiv.org/abs/2509.02521 Hugging Face 模型页:https://huggingface.co/CofeAI/FLM-Audio 南洋理工大学,正式发布 RoboBrain-Audio(FLM-Audio) —— 首个支持 "自然独白 + 双训练范式" 的原生全双工语音对话大模型。 在一段自然对话音频中,用户连续提出多个不同问题,并多次在模型回答过程中打断。 RoboBrain-Audio 始终能够迅速停顿当前输出、准确理解新的问题并即时作答,展现出真实交流中所需的全双工、强 鲁棒性与高自然度。 RoboBrain-Audio 采用原生全双工 (Native Full-duplex) 架构,相比传统的 TDM(时分复用)模型在响应延迟、对话自然度上实现飞跃式提升,同时语言理解能力显 著强于其他原生全双工模型,标志着 具身智能体从 "能听会说" 向 "边听边说" 的交互能力跃迁。 根据公开数据,当前业界训练音频基座模型时使用的数据量已达到上千万乃至上亿小时,这些模型在音色克隆和长回复生成上更具优势,而 RoboBrain-Audio 仅使 用 100 ...