语音AI

搜索文档
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
机器之心· 2025-06-17 04:50
语音大模型技术综述 核心观点 - 语音语言模型(SpeechLM)通过端到端处理实现自然语音交互,突破传统ASR-LLM-TTS流程的三大痛点:信息丢失、延迟严重、错误累积 [4][5][6] - 该技术由香港中文大学团队系统梳理,形成领域首篇ACL 2025收录的综述论文,包含技术架构、训练策略、评估体系等完整框架 [1][31] 技术架构 核心组件 - **语音分词器**:分为语义理解型/声学生成型/混合型三类,实现音频信号到token的转换 [16] - **语言模型**:基于Transformer的自回归架构,扩展词汇表处理多模态token [16] - **声码器**:将语言模型输出token转换为可听波形,完成最终语音生成 [16] 交互范式 - 全双工建模技术实现实时交互,包含用户中断能力和同时响应能力两大特性 [18] - 流式处理架构支持双向同时通信,突破传统"你说完我再说"的交互模式 [17][18] 训练策略 三阶段流程 - **预训练阶段**:冷启动或基于文本语言模型继续预训练,关键在文本-语音表示空间对齐 [12] - **指令微调阶段**:通过大规模指令数据集赋予多样化任务处理能力 [13] - **后对齐阶段**:采用人类反馈强化学习优化输出质量与安全性 [14] 应用场景 语义相关 - 统一框架支持语音对话/翻译/识别/关键词检测等任务,无需单独训练专用模型 [20] 说话人相关 - 实现说话人识别/验证/分离,支持特定音色语音生成,推动个性化语音助手发展 [21] 副语言学 - 识别情绪状态并生成对应情感色彩的语音,增强交互生动性 [22] 评估体系 多维指标 - 自动评估覆盖表示质量/语言学能力/生成质量等6大维度,建立客观比较基准 [25] - 人工评估采用MOS评分,主观衡量自然度/韵律质量/音色相似度等感知特征 [26] 发展挑战 技术瓶颈 - 需解决组件选择优化/端到端训练/实时生成等技术难题,特别关注安全防护机制建设 [28][29] - 资源稀缺语言支持是推动技术普惠的关键方向 [29]
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
机器之心· 2025-05-15 06:04
国产大模型技术突破 - 国产大模型MiniMax的Speech-02语音大模型在国际权威语音评测榜单Artificial Analysis上登顶,击败OpenAI和ElevenLabs [1] - Speech-02在字错率(WER)和说话人相似度(SIM)等关键指标上取得SOTA结果,WER最低达0.83(中文)和1.65(英文),SIM最高达0.799(中文)和0.738(英文) [1][24] - 该模型成本仅为ElevenLabs竞品模型的1/4,展现出极高的性价比优势 [4] 核心技术创新 - 采用自回归Transformer架构,实现真正意义上的零样本语音克隆,仅需几秒参考音频即可模仿目标说话人特征 [12][14] - 提出Flow-VAE架构,通过流匹配模型增强语音生成质量,使合成语音更接近真人 [13][17] - 引入T2V框架,结合自然语言描述与结构化标签信息,实现高度灵活可控的音色生成 [21] 多语言与跨语言能力 - 支持32种语言,在中英、粤语、葡萄牙语、法语等语种表现突出 [38] - 在24种测试语言中SIM指标均显著优于ElevenLabs multilingual_v2模型 [26] - 跨语言测试显示WER表现优异,如越南语WER仅0.659,泰语2.826,阿拉伯语1.446 [28] 产品特性与用户体验 - 提供超拟人化语音合成,预置数百种多语言声音库,错误率比真人更低 [32][33] - 支持声音克隆功能,用户可通过简短录音获得专属AI语音 [34][36] - 提供7种情绪控制选项(悲伤、快乐、生气等),可调节语速和语调 [36][37] 商业化应用前景 - 已形成文本、语音、视频完整产品链,如海螺AI等产品 [44] - 应用场景覆盖语音助手、声聊唱聊、配音等领域,加速商业化进程 [44] - 接入AI硬件生态,包括儿童玩具、教育学习机、汽车智能座舱等赛道 [44]
速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成
Z Potentials· 2025-04-23 03:49
行业概况 - 合成语音工具市场巨大且持续增长 主要参与者包括ElevenLabs PlayAI Sesame等 [1] - 2023年语音AI技术初创公司共获得3.98亿美元风险投资 [2] 公司技术 - Nari Labs开发的Dia模型具有16亿参数 支持从脚本生成对话 可自定义说话者语气并插入非语言线索 [2] - 模型通过Google TPU Research Cloud计划训练 可在10GB VRAM以上PC运行 提供语音克隆功能 [2][3] - 技术特点包括双向聊天生成能力 语音质量与主流工具相当 克隆功能操作简便 [3] 产品应用 - 模型部署在Hugging Face和GitHub平台 生成内容需依赖样式提示 否则输出随机语音 [3] - 计划扩展多语言支持 未来将构建具有社交属性的合成语音平台 [5] 潜在问题 - 缺乏内容防护机制 存在制作虚假信息/诈骗录音的风险 [4] - 训练数据来源未披露 可能涉及版权内容 样本中检测到类似NPR播客主持人的声纹特征 [5] 商业模式 - 采用开源模式发布技术报告 暂未披露商业化路径 [5] - 团队由非专业背景本科生组成 开发周期仅三个月 [1][2]