硅谷热议：最快语音转文字模型

产品发布与性能突破 - AI语音独角兽公司ElevenLabs发布了Scribe v2 Realtime实时语音转文本模型，被网友评价为“Next-Level” [3] - 该模型实现了150毫秒的超低延迟，其速度之快相当于人类眨眼一次的平均时长（100-400毫秒） [4][5] - 模型在FLEURS基准测试中对前30种常用语言的准确率达到93.5%，表现突出 [4][7] - 模型支持90多种语言，覆盖从主流到小众的语种，并支持PCM（8-48kHz）、μ-law编码等多种音频格式 [4][10] - 产品具备语音活动检测和手动提交控制功能，便于实现定制化的音频流处理和更高精度的微调 [10] - 即使在嘈杂环境、方言或包含专业术语的对话中，模型也能精准抓取关键词，甚至能辨别笑声类型 [9] - 实际测试显示，该模型对中文某些生活化表达（如“五月单五”）的识别尚不完美，但整体准确率较高 [12] 行业技术演进与痛点 - 实时语音转文本赛道早期以传统统计模型为主，存在识别准确率低、背景噪音下错误率常超30%、延迟普遍在1秒以上的痛点 [13] - 深度学习技术应用后，模型准确率有所提升，但多语言支持能力薄弱，主流模型仅覆盖20-30种语言，对小众语言或复杂口音适配性差 [13] - 行业长期存在“速度与精度不可兼得”的困境，直至Transformer架构在语音领域应用后才逐步缓解 [14] - Scribe v2 Realtime实现了毫秒级延迟与90%以上准确率的突破，成为该赛道新的技术天花板 [15][25] 公司背景与商业成就 - ElevenLabs成立于2022年，是一家聚焦AI语音技术的科技企业，创始团队包括前谷歌机器学习工程师与前Palantir策略师 [18][19] - 公司成立后商业进展迅速，仅用20个月营收突破1亿美元，随后10个月内进一步增长至2亿美元 [21] - 公司在2025年1月完成1.8亿美元C轮融资后，估值达到33亿美元 [22] - 公司创立之初即坚定押注语音方向，目前拥有全球Top 100的AI语音方向研究员 [23] - 公司采用灵活的组织架构，将250人团队视为20个5-10人的小团队，内部不设头衔，鼓励任何人成为关键决策者 [23] - 公司此前推出的Eleven v3文本转语音模型因支持70多种语言及自然生动的表现力已获好评 [24]