Workflow
Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型
机器之心·2025-09-20 04:37

技术方案与核心创新 - 提出Mini-Omni-Reasoner新范式,通过“Thinking-in-Speaking”实现边思考边表达,兼顾实时反馈与高质量推理 [4] - 采用Thinker-Talker架构,Thinker负责语音理解和逻辑推理,Talker专司语音生成,实现功能解耦 [12] - 设计2:8的回答-推理token交替比例,在保证推理深度的同时维持语音合成的流畅性,例如每秒生成50个token时可提供10个回答token [13] 实现机制与技术细节 - 模型在生成过程中同时维护回答流和推理流,循环输出p个回答token与q个推理token,实现token级别的思维与输出交替生成 [11] - 构建超过百万份高质量训练数据的Spoken-Math-Problems-3M数据集,并设计四阶段数据管线解决“逻辑错位”问题 [17] - 采用五阶段训练管线,包括对齐训练、混合数学预训练、文本thinking-in-speaking训练、语音thinking-in-speaking训练及Talker训练,确保稳定收敛 [19][22] 性能表现与实验结果 - 在Spoken-MQA数据集上测试,模型相比基座模型Qwen2.5-Omni-3B有明显性能提升 [21] - “Thinking-in-Speaking”方法能在保持回复内容自然简洁的情况下维持高质量的推理过程 [24] 行业意义与发展前景 - 该技术是对话模型迈向复杂问题解决的早期尝试,旨在释放大模型推理能力在对话系统中的应用潜力 [25] - 未来探索方向包括通用问题推理增益评测、模型自主决定思考时机以及突破固定比例生成以实现更灵活的思维范式 [26][28]