多模态AI - 财报，业绩电话会，研报，新闻

多模态AI

搜索文档

LLaSO 横空出世：逻辑智能推出全球首个完全开源语音大模型框架，定义 LSLM 研究新基准

机器之心· 2025-09-14 05:16

大型语音语言模型（LSLM）行业现状 - 大型语音语言模型（LSLM）的发展零散且步调缓慢，长期被碎片化架构、不透明训练数据和缺失的评估标准所困扰，导致研究难以公平比较，技术可复现性和社区进步受阻 [2] - 与视觉语言模型（LVLM）领域已形成CLIP编码器+LLaVA范式的成熟生态相比，LSLM研究面临四大核心挑战：架构路径分化严重、训练数据严重私有化、任务覆盖局限性明显、交互模态单一化 [7][8][9] - 主流LSLM如Qwen-Audio、Kimi-Audio等均依赖私有数据训练，数据规模、质量、构成等关键信息不透明，使得性能归因模糊且研究门槛高 [8][12] LLaSO框架的核心贡献 - 北京深度逻辑智能科技有限公司推出LLaSO，作为首个完全开放、端到端的语音语言模型研究框架，旨在为社区提供统一、透明且可复现的基础设施 [3][5] - LLaSO框架包含三大核心开源组件：LLaSO-Align（1200万语音-文本对齐样本）、LLaSO-Instruct（1350万多任务指令样本）、LLaSO-Eval（标准化评估基准） [14][15][16][17] - 该框架系统性支持三种交互配置：文本指令+音频输入、音频指令+文本输入、纯音频指令与输入，覆盖语言学、语义学、副语言学三大类共20项任务 [16] LLaSO-Base模型的技术实现与性能 - 基于LLaSO数据训练38亿参数的参考模型LLaSO-Base，采用经典三阶段架构：语音编码器（Whisper-large-v3）、模态投影器（MLP）、语言模型backbone（Llama-3.2-3B-Instruct） [20][21][25] - 在LLaSO-Eval基准测试中，LLaSO-Base取得0.72的最高归一化得分，显著优于Kimi-Audio（0.65）和Qwen2-Audio（0.57） [34] - 在自动语音识别（ASR）任务中，LLaSO-Base的词错误率（WER）和字错误率（CER）分别低至0.08和0.03，展现压倒性优势 [37] - 在副语言学任务中，LLaSO-Base在说话人性别识别（SGC）和口音分类（AC）任务上准确率名列前茅，在音素识别（PER 0.03）和语音命令识别（WER 0.04）上以数量级优势领先 [40][41][42] 行业影响与未来方向 - LLaSO框架通过完整开放的训练数据和代码实现，为LSLM研究提供可复现性保障、公平比较基础，降低研究门槛并加速技术积累 [54][56] - 相比私有数据方案，开源框架可为工业应用节省数千万数据构建成本，降低技术选型风险，并支持领域定制化 adaptation [56] - 当前局限性包括模型规模（38亿参数）与GPT-4级模型存在性能差距、多语言支持主要针对英文和中文、实时性能和长音频处理效率有待优化 [56] - 未来发展方向包括探索更大规模模型的性能上限、通过模型压缩和量化降低部署门槛、集成视觉信息实现多模态理解、针对医疗教育等垂直领域优化 [56]