Scribe v2 Realtime - 财报，业绩电话会，研报，新闻

Scribe v2 Realtime

搜索文档

腾讯研究院AI速递 20251113

腾讯研究院· 2025-11-12 16:08

生成式AI行业动态与巨头战略 - Meta首席AI科学家LeCun因AI战略分歧将离职，其领导的FAIR实验室被边缘化，公司战略重心转向快速推出模型和AI产品 [1] - LeCun坚信大模型无法通往AGI，离职后将成立新公司专注推进“世界模型”研究，目前正在进行早期融资洽谈 [1] - Meta今年已进行超4次架构调整，由28岁的Alexandr Wang领导全新的“超级智能”团队 [1] AI模型技术突破与应用 - 谷歌AI Studio神秘模型成功识别200多年前的“天书”账本，字符错误率仅1.7%，词错误率6.5%，达到人类专家级准确度 [2] - 该模型展现出抽象推理能力，能纠正原账本书写格式错误，并在18世纪非十进制货币系统等极端场景下表现出色 [2] - AI语音公司ElevenLabs发布Scribe v2 Realtime模型，实现150毫秒超低延迟和93.5%高准确率，覆盖90多种语言 [3] - ElevenLabs成立于2022年，目前拥有7000万用户，月均生成3000万份文档，公司估值达33亿美元 [3] AI产品功能更新与市场策略 - OpenAI即将为ChatGPT网页版推出群聊功能，支持文件上传和图像生成，且群聊的自定义指令与个人设置完全独立以保护隐私 [4] - 此举被解读为OpenAI意图获取企业对话数据以改进模型，并可能推出原生AI生产力套件以取代现有工具 [4] - AI演示工具Gamma以21亿美元估值完成6800万美元B轮融资，50人团队实现年经常性收入1亿美元 [7] - Gamma全面开放API并发布提示词指南，目前已积累7000万用户，其中付费用户超60万，公司自2023年起持续盈利 [7] AI在创意与内容生成领域进展 - LiblibAI旗下Lovart推出分层图像编辑功能，可将像素位图一键拆分为多个可编辑图层，支持中英文识别 [5] - AI生成虚拟歌手“Breaking Rust”的歌曲登上Billboard乡村数字单曲销售榜冠军，月度听众达180万 [6] - 过去几个月至少有6位AI或AI辅助艺术家出现在Billboard榜单，引发关于真人创作竞争力的行业讨论 [6] 资本市场与初创公司融资 - 物理AI公司极佳视界完成亿元级A1轮融资，由华为哈勃等机构投资，这是该公司两个月内完成的第三轮融资 [7] - 极佳视界产品覆盖自动驾驶世界模型等全栈软硬件，已与多家头部主机厂签约定点合作，并发布了国内首个自动驾驶世界模型 [7] 开发者生态与编程语言趋势 - GitHub报告显示TypeScript以约4.2万名贡献者优势首次超越Python，成为使用最广泛的语言 [7] - TypeScript在2025年贡献者数量增长超100万（同比增长66%），主要驱动力来自开发框架和AI辅助开发 [7] - Python在AI和数据科学领域仍保持主导地位，拥有260万贡献者（同比增长48%） [7]

世界模型

生成式AI

AGI

Artificial Intelligence

Artificial Intelligence

世界模型

谷歌AI Studio神秘模型

硅谷热议：最快语音转文字模型

量子位· 2025-11-12 08:01

产品发布与性能突破 - AI语音独角兽公司ElevenLabs发布了Scribe v2 Realtime实时语音转文本模型，被网友评价为“Next-Level” [3] - 该模型实现了150毫秒的超低延迟，其速度之快相当于人类眨眼一次的平均时长（100-400毫秒） [4][5] - 模型在FLEURS基准测试中对前30种常用语言的准确率达到93.5%，表现突出 [4][7] - 模型支持90多种语言，覆盖从主流到小众的语种，并支持PCM（8-48kHz）、μ-law编码等多种音频格式 [4][10] - 产品具备语音活动检测和手动提交控制功能，便于实现定制化的音频流处理和更高精度的微调 [10] - 即使在嘈杂环境、方言或包含专业术语的对话中，模型也能精准抓取关键词，甚至能辨别笑声类型 [9] - 实际测试显示，该模型对中文某些生活化表达（如“五月单五”）的识别尚不完美，但整体准确率较高 [12] 行业技术演进与痛点 - 实时语音转文本赛道早期以传统统计模型为主，存在识别准确率低、背景噪音下错误率常超30%、延迟普遍在1秒以上的痛点 [13] - 深度学习技术应用后，模型准确率有所提升，但多语言支持能力薄弱，主流模型仅覆盖20-30种语言，对小众语言或复杂口音适配性差 [13] - 行业长期存在“速度与精度不可兼得”的困境，直至Transformer架构在语音领域应用后才逐步缓解 [14] - Scribe v2 Realtime实现了毫秒级延迟与90%以上准确率的突破，成为该赛道新的技术天花板 [15][25] 公司背景与商业成就 - ElevenLabs成立于2022年，是一家聚焦AI语音技术的科技企业，创始团队包括前谷歌机器学习工程师与前Palantir策略师 [18][19] - 公司成立后商业进展迅速，仅用20个月营收突破1亿美元，随后10个月内进一步增长至2亿美元 [21] - 公司在2025年1月完成1.8亿美元C轮融资后，估值达到33亿美元 [22] - 公司创立之初即坚定押注语音方向，目前拥有全球Top 100的AI语音方向研究员 [23] - 公司采用灵活的组织架构，将250人团队视为20个5-10人的小团队，内部不设头衔，鼓励任何人成为关键决策者 [23] - 公司此前推出的Eleven v3文本转语音模型因支持70多种语言及自然生动的表现力已获好评 [24]

语音转文字模型

文本转语音模型

Artificial Intelligence

Artificial Intelligence

Scribe v2 Realtime

Eleven v3