实时推理

搜索文档
Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型
机器之心· 2025-09-20 04:37
本文第一作者谢之非,共同第一作者马子阳皆是来自于南洋理工大学的博士生。通讯作者为新加坡国立大学特聘教授颜水成和南洋理工大学数据与科学系校长讲 席教授苗春燕。共同作者为腾讯AI首席专家叶德珩和新加坡国立大学博士后研究员廖越。 两千多年前,孔子说过「 三思而后行 」。这句古老箴言,其实点出了人类面对复杂问题的核心智慧:一步步推理,层层拆解,最终做出可靠的决策。 现在,已有诸多模型在复杂推理方面展现出显著进展,如 DeepSeek-R1 和 OpenAI o1,部分多模态系统甚至能够处理跨领域的复杂任务,展现出解决复杂现实问题 的潜力。然而, 在端到端对话模型中,推理能力尚未解锁。 原因并不复杂。深度思考意味着模型往往需要在输出前生成完整推理链,而这直接带来延迟。对于语音对话系统而言,速度与质量同样关键。一旦停顿过长,哪 怕答案再精妙,也会破坏交互的自然感。 设想一个场景:你问语音助手「这份研究报告的结论可靠吗?」。如果模型沉默十秒才给出语音的回复,则完全失去对话的体验;若它立刻回答,但推理缺乏深 度,又容易显得表面化。问题在于: 要么得到一个「强大但反应迟钝」的助手,要么得到一个「迅速但思维简单」的助手。 鱼与熊 ...