Workflow
阶跃星辰发布最强开源端到端语音大模型,开启终端人机交互语音新范式
IPO早知道·2025-09-01 04:06

产品发布与技术优势 - 公司正式发布最强开源端到端语音大模型 Step-Audio 2 mini 在多个国际基准测试集上取得 SOTA 成绩[2] - 模型采用真正端到端多模态架构 统一建模语音理解、音频推理与生成 时延更低输出更快 能精准理解副语言信息和非人声信号[2] - 模型在音频理解、语音识别、跨语种翻译、情感与副语言解析等任务中表现突出 综合性能超越所有开源端到端语音模型 并在大部分任务上超越 GPT-4o-audio[3] 性能表现与基准测试 - Step-Audio 2 mini 在 MMAU 基准测试中得分 73.2 在 URO Bench 英文基础测试中得分 74.4 中文基础测试中得分 77.8[3] - 模型在 CoVoST 2 跨语种翻译测试中得分 39.3 在 SSAD 测试中得分 29.1 在 StepEval-Audio-Paralinguistic 测试中得分 80.0[3] - 对比开源模型 Qwen-Omni 在 MMAU 测试中得分 71.5 Kimi-Audio 得分 69.6 均低于 Step-Audio 2 mini 的 73.2[3] 行业应用与商业化进展 - 语音交互成为人机主要交互方式 智能终端设备对语音模型的智商及情商水平提出更高要求[4] - 模型首创音频推理能力 能对情绪、语调、音乐等副语言和非语音信号进行精细理解推理并自然回应 支持语音原生 Tool Calling 能力 可实现联网搜索操作[4] - 吉利发布搭载公司端到端语音大模型的银河 M9 实现行业首次量产上车 公司已与吉利、鲸鱼机器人、TCL、Cyan 青心意创等头部终端厂商达成深度合作[4] 公司技术发展与开源贡献 - 公司自去年发布国内首个千亿参数端到端语音大模型 Step-1o Audio 后持续迭代模型性能[4] - 今年以来已开源 8 款性能领先的多模态模型 覆盖语音、视频生成、图像编辑、3D、多模态推理等多个类别[4]