阶跃星辰发布最强开源端到端语音大模型，开启终端人机交互语音新范式

产品发布与技术优势 - 公司正式发布最强开源端到端语音大模型 Step-Audio 2 mini 在多个国际基准测试集上取得 SOTA 成绩[2] - 模型采用真正端到端多模态架构统一建模语音理解、音频推理与生成时延更低输出更快能精准理解副语言信息和非人声信号[2] - 模型在音频理解、语音识别、跨语种翻译、情感与副语言解析等任务中表现突出综合性能超越所有开源端到端语音模型并在大部分任务上超越 GPT-4o-audio[3] 性能表现与基准测试 - Step-Audio 2 mini 在 MMAU 基准测试中得分 73.2 在 URO Bench 英文基础测试中得分 74.4 中文基础测试中得分 77.8[3] - 模型在 CoVoST 2 跨语种翻译测试中得分 39.3 在 SSAD 测试中得分 29.1 在 StepEval-Audio-Paralinguistic 测试中得分 80.0[3] - 对比开源模型 Qwen-Omni 在 MMAU 测试中得分 71.5 Kimi-Audio 得分 69.6 均低于 Step-Audio 2 mini 的 73.2[3] 行业应用与商业化进展 - 语音交互成为人机主要交互方式智能终端设备对语音模型的智商及情商水平提出更高要求[4] - 模型首创音频推理能力能对情绪、语调、音乐等副语言和非语音信号进行精细理解推理并自然回应支持语音原生 Tool Calling 能力可实现联网搜索操作[4] - 吉利发布搭载公司端到端语音大模型的银河 M9 实现行业首次量产上车公司已与吉利、鲸鱼机器人、TCL、Cyan 青心意创等头部终端厂商达成深度合作[4] 公司技术发展与开源贡献 - 公司自去年发布国内首个千亿参数端到端语音大模型 Step-1o Audio 后持续迭代模型性能[4] - 今年以来已开源 8 款性能领先的多模态模型覆盖语音、视频生成、图像编辑、3D、多模态推理等多个类别[4]