文章核心观点 - 文章认为,以Mamba为代表的状态空间模型(SSM)架构,为解决Transformer模型在长序列处理上的计算效率瓶颈提供了新路径,尤其在音频等连续信号处理领域展现出巨大潜力 [9] - 文章指出,语音生成初创公司Cartesia是Mamba架构在商业化领域的核心代言人,其基于SSM的“高语音质量+低延迟”产品,正在语音AI市场获得竞争优势并推动实时多模态交互的发展 [4][17] 从 Transformer 到 Mamba - Transformer是当前大语言模型的主流架构,但其自注意力机制具有O(n²)的二次计算复杂度,限制了模型处理长序列的能力 [7][8] - 为突破Transformer的局限,业界发展出两条技术路线:一是在Transformer框架内进行优化(如RAG、MoE),二是探索后Transformer架构,其中基于SSM的Mamba模型备受关注 [8][9] - Mamba模型由Albert Gu和Tri Dao提出,是SSM系列研究的延续,其通过选择性机制和硬件适配实现了线性时间复杂度O(N),在同算力规模下具备Transformer 5倍的吞吐量 [9][14] - Mamba与Transformer并非简单的替代关系,两者在数学上存在紧密关联,最新的状态空间对偶(SSD)框架揭示了它们之间的等价性,业界也出现了Hybrid-Mamba-Transformer融合架构 [10][13] - 尽管Mamba在理论上具备线性复杂度、低延迟和低内存消耗的优势,但其实际应用仍面临迁移成本高、生态不完善、规模化验证不足以及缺乏杀手级应用等挑战 [15][16] Cartesia - Mamba 架构的代言人 - Cartesia是一家成立于2023年9月的语音AI初创公司,其核心创始团队均来自斯坦福大学AI实验室,是Mamba及SSM系列研究的提出者和核心贡献者 [4][17] - 公司的使命是构建“面向所有设备的实时多模态智能”平台,其长期愿景是将模型从数据中心依赖转向边缘设备,实现高效、实时、低成本的交互体验 [19] - 公司的核心技术是基于SSM架构的多流模型,能够在多个模态的数据流上持续推理和生成,实现端到端的高效流式推理和精准控制 [19] - 公司现阶段产品主要聚焦于语音领域,旗舰产品为Sonic系列文本转语音模型及API,最新版本Sonic 2.0将系统延迟从90毫秒缩短至45毫秒,在测试中被用户选择的概率是竞品Elevenlabs的1.5倍 [3][23] - Sonic产品具备多项优势:首音频播放时间低至95毫秒、语音拟真度高、支持大规模并发、能精准解析关键信息,其困惑度较传统TTS模型降低20%,单词错误率降低2倍 [22][23][24] - 公司另一重要产品是Voice Changer,可将输入语音转换为目标音色同时保留原始情感和表达特征,适用于内容创作、游戏开发及企业服务等多个领域 [25] - 公司的商业模式采用分层订阅制,其旗舰模型Sonic已吸引了10,000多家客户,包括Quora、Cresta等,并通过与11x、Toby、Daily.co、Vapi等平台合作,切入销售、实时翻译、视频通讯、医疗保健等垂直行业 [26][27] 团队及融资 - Cartesia的核心团队由斯坦福大学Stanford Statistical Machine Learning Group的成员构成,包括Mamba提出者Albert Gu、Karan Goel、Arjun Desai、Brandon Yang及其共同导师Chris Ré [4][32][34] - 团队在SSM领域有深厚积累,共同的研究成果包括HiPPO、S4等,为Mamba的诞生奠定了技术基础 [9][34] - 2025年3月11日,公司完成6400万美元的A轮融资,由Kleiner Perkins领投,Lightspeed、Index等机构跟投,至此公司融资总额达9100万美元,员工仅26名 [3][35] 市场 - 语音生成市场正快速发展,Y Combinator孵化项目中,voice-native公司的数量在冬季和秋季周期之间增长了70% [4][36] - TTS作为通用技术,在销售代理、客户支持、内容创作、游戏、教育等领域应用广泛,2024年全球市场规模约40亿美元,并以超过15%的年复合增长率增长,预计到2033年将达到146亿美元 [36][42] - 市场竞争者包括提供捆绑解决方案的云巨头(如AWS、Google Cloud)、开源模型(如Meta Llama)以及Elevenlabs、Deepgram等初创公司 [45][48] - 与主要竞品相比,Cartesia在“语音质量+延迟”维度具备优势:在LabelBox的评估中排名第一的概率为27.93%,而Elevenlabs为10.68%;其首次音频时间(TTFA)为199毫秒,远低于Elevenlabs自助服务层的832毫秒 [51][55] - 竞争呈现差异化格局:Elevenlabs在内容创作领域凭借顶级音质占据领先地位;Deepgram在ASR和成本效益上领先;Cartesia则以低延迟(如200毫秒)、高音质和快速语音克隆技术抢占市场,目前在部分代理商份额中约占20% [58][60] - 未来趋势是技术路线的选择与融合,端到端语音交互、多模态能力是关键,基于Mamba的SSM架构为实时多模态AI提供了新的可能性 [60]
Cartesia: 3 个月融资 9100 万美元,从 Transformer 到 Mamba 重塑语音 AI
海外独角兽·2025-04-03 12:04