Workflow
Scribe v2 Realtime
icon
搜索文档
腾讯研究院AI速递 20251113
腾讯研究院· 2025-11-12 16:08
生成式AI行业动态与巨头战略 - Meta首席AI科学家LeCun因AI战略分歧将离职,其领导的FAIR实验室被边缘化,公司战略重心转向快速推出模型和AI产品 [1] - LeCun坚信大模型无法通往AGI,离职后将成立新公司专注推进“世界模型”研究,目前正在进行早期融资洽谈 [1] - Meta今年已进行超4次架构调整,由28岁的Alexandr Wang领导全新的“超级智能”团队 [1] AI模型技术突破与应用 - 谷歌AI Studio神秘模型成功识别200多年前的“天书”账本,字符错误率仅1.7%,词错误率6.5%,达到人类专家级准确度 [2] - 该模型展现出抽象推理能力,能纠正原账本书写格式错误,并在18世纪非十进制货币系统等极端场景下表现出色 [2] - AI语音公司ElevenLabs发布Scribe v2 Realtime模型,实现150毫秒超低延迟和93.5%高准确率,覆盖90多种语言 [3] - ElevenLabs成立于2022年,目前拥有7000万用户,月均生成3000万份文档,公司估值达33亿美元 [3] AI产品功能更新与市场策略 - OpenAI即将为ChatGPT网页版推出群聊功能,支持文件上传和图像生成,且群聊的自定义指令与个人设置完全独立以保护隐私 [4] - 此举被解读为OpenAI意图获取企业对话数据以改进模型,并可能推出原生AI生产力套件以取代现有工具 [4] - AI演示工具Gamma以21亿美元估值完成6800万美元B轮融资,50人团队实现年经常性收入1亿美元 [7] - Gamma全面开放API并发布提示词指南,目前已积累7000万用户,其中付费用户超60万,公司自2023年起持续盈利 [7] AI在创意与内容生成领域进展 - LiblibAI旗下Lovart推出分层图像编辑功能,可将像素位图一键拆分为多个可编辑图层,支持中英文识别 [5] - AI生成虚拟歌手“Breaking Rust”的歌曲登上Billboard乡村数字单曲销售榜冠军,月度听众达180万 [6] - 过去几个月至少有6位AI或AI辅助艺术家出现在Billboard榜单,引发关于真人创作竞争力的行业讨论 [6] 资本市场与初创公司融资 - 物理AI公司极佳视界完成亿元级A1轮融资,由华为哈勃等机构投资,这是该公司两个月内完成的第三轮融资 [7] - 极佳视界产品覆盖自动驾驶世界模型等全栈软硬件,已与多家头部主机厂签约定点合作,并发布了国内首个自动驾驶世界模型 [7] 开发者生态与编程语言趋势 - GitHub报告显示TypeScript以约4.2万名贡献者优势首次超越Python,成为使用最广泛的语言 [7] - TypeScript在2025年贡献者数量增长超100万(同比增长66%),主要驱动力来自开发框架和AI辅助开发 [7] - Python在AI和数据科学领域仍保持主导地位,拥有260万贡献者(同比增长48%) [7]
硅谷热议:最快语音转文字模型
量子位· 2025-11-12 08:01
产品发布与性能突破 - AI语音独角兽公司ElevenLabs发布了Scribe v2 Realtime实时语音转文本模型,被网友评价为“Next-Level” [3] - 该模型实现了150毫秒的超低延迟,其速度之快相当于人类眨眼一次的平均时长(100-400毫秒) [4][5] - 模型在FLEURS基准测试中对前30种常用语言的准确率达到93.5%,表现突出 [4][7] - 模型支持90多种语言,覆盖从主流到小众的语种,并支持PCM(8-48kHz)、μ-law编码等多种音频格式 [4][10] - 产品具备语音活动检测和手动提交控制功能,便于实现定制化的音频流处理和更高精度的微调 [10] - 即使在嘈杂环境、方言或包含专业术语的对话中,模型也能精准抓取关键词,甚至能辨别笑声类型 [9] - 实际测试显示,该模型对中文某些生活化表达(如“五月单五”)的识别尚不完美,但整体准确率较高 [12] 行业技术演进与痛点 - 实时语音转文本赛道早期以传统统计模型为主,存在识别准确率低、背景噪音下错误率常超30%、延迟普遍在1秒以上的痛点 [13] - 深度学习技术应用后,模型准确率有所提升,但多语言支持能力薄弱,主流模型仅覆盖20-30种语言,对小众语言或复杂口音适配性差 [13] - 行业长期存在“速度与精度不可兼得”的困境,直至Transformer架构在语音领域应用后才逐步缓解 [14] - Scribe v2 Realtime实现了毫秒级延迟与90%以上准确率的突破,成为该赛道新的技术天花板 [15][25] 公司背景与商业成就 - ElevenLabs成立于2022年,是一家聚焦AI语音技术的科技企业,创始团队包括前谷歌机器学习工程师与前Palantir策略师 [18][19] - 公司成立后商业进展迅速,仅用20个月营收突破1亿美元,随后10个月内进一步增长至2亿美元 [21] - 公司在2025年1月完成1.8亿美元C轮融资后,估值达到33亿美元 [22] - 公司创立之初即坚定押注语音方向,目前拥有全球Top 100的AI语音方向研究员 [23] - 公司采用灵活的组织架构,将250人团队视为20个5-10人的小团队,内部不设头衔,鼓励任何人成为关键决策者 [23] - 公司此前推出的Eleven v3文本转语音模型因支持70多种语言及自然生动的表现力已获好评 [24]