阿里巴巴(09988)旗下通义千问发布Qwen3-Omni原生全模态大模型

产品发布 - 阿里巴巴旗下通义千问于9月26日正式发布原生全模态大模型Qwen3-Omni [1] - Qwen3-Omni能够无缝处理文本、图像、音频和视频等多种输入形式 [1] - 模型通过实时流式响应同时生成文本与自然语音输出 [1] 技术架构 - 采用Thinker-Talker架构：Thinker负责文本生成，Talker专注于流式语音Token生成 [1] - Talker直接接收来自Thinker的高层语义表征 [1] - 通过自回归方式预测多码本序列实现超低延迟流式生成 [1] 技术实现 - MTP模块输出当前帧的残差码本 [1] - Code2Wav合成对应波形实现逐帧流式生成 [1] - 预训练全模态不降智保持多模态处理能力 [1]