阿里巴巴旗下通义千问发布Qwen3-Omni原生全模态大模型

产品发布 - 阿里巴巴旗下通义千问于9月26日正式发布原生全模态大模型Qwen3-Omni [1] - 该模型能够无缝处理文本、图像、音频和视频等多种输入形式 [1] - 通过实时流式响应同时生成文本与自然语音输出 [1] 技术架构 - Qwen3-Omni采用Thinker-Talker架构：Thinker负责文本生成，Talker专注于流式语音Token生成 [1] - Talker直接接收来自Thinker的高层语义表征 [1] - 为实现超低延迟流式生成，Talker通过自回归方式预测多码本序列 [1] - MTP模块输出当前帧的残差码本，Code2Wav合成对应波形，实现逐帧流式生成 [1] 模型特性 - 预训练全模态不降智 [1]