Mamba
搜索文档
被拒≠失败!这些高影响力论文都被顶会拒收过
具身智能之心· 2025-12-12 01:22
Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客,阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上分享了该博客,并重点介绍了Waymo使用的蒸馏方法,该方法与创建Gemini Flash模型的思路类似,旨在基于更大模型创建可机载运行的高计算效率模型[1] 同行评审制度的历史局限性 - 回顾AI发展史,许多支撑起万亿级产业的基石技术在最初问世时,都曾被顶级学术会议拒之门外[6] - 同行评审制度虽为质量守门人,但在面对过于超前或离经叛道的研究时,存在系统性认知滞后,包括简单性陷阱、范式惯性和对理论严谨性的过度要求[41] - 科学发展的非线性表明,同行评审善于识别错误,但往往拙于鉴别天才,真正决定研究生命力的是其解决问题的能力与时间检验[43] 曾被拒稿的里程碑式技术与论文 LSTM (长短期记忆网络) - 论文《Long Short-Term Memory》于1996年被NIPS会议拒稿[7][8] - 在当时神经网络寒冬的背景下,其门控机制被认为参数过多、过于复杂且缺乏生物学合理性[9] - 该论文目前引用量已超过139,707次,并在2010年代随算力与数据爆发,于语音识别和机器翻译中展现出统治级表现[8][10] SIFT (尺度不变特征变换) - David Lowe提出的SIFT算法在1997年和1998年先后被ICCV和CVPR会议拒稿[12] - 拒稿理由是算法被认为过于繁琐、不够优雅,不符合当时学术界对严密数学推导的偏好[12] - 该算法最终以海报形式发表,统治计算机视觉领域长达15年,其论文引用量超过27,389次[13][16] Dropout - Geoffrey Hinton团队关于Dropout的论文在2012年投稿NIPS时被拒[17] - 评审认为随机“删除”神经元的方法过于激进、缺乏数理逻辑,并将作者使用的生物学隐喻视为不够科学的工程技巧[17] - 该技术后来成为AlexNet赢得ImageNet比赛的关键,论文引用量超过60,231次,并获得了NeurIPS时间检验奖[17][21] Word2Vec - Tomas Mikolov等人(包括Jeff Dean)关于Word2Vec的论文在首届ICLR会议上被“强烈拒绝”[20][22] - 评审意见尖锐,认为工作“不科学”、“定义模糊”,且过度关注工程优化而缺乏理论解释[20] - 作者通过开源代码使其迅速普及,成为NLP领域基石,论文引用量超过50,855次,并在2023年获得NeurIPS时间检验奖[20][22] 知识蒸馏 (Knowledge Distillation) - 由Geoffrey Hinton、Oriol Vinyals和Jeff Dean合著的论文在2014年被NeurIPS拒稿,理由是其“不太可能产生重大影响”[3][4][31] - 评审未能认识到“暗知识”概念的深远意义,即知识隐含在错误类别的概率分布中[25] - 该论文最终在研讨会上发表,开启了模型压缩领域,目前引用量已超过28,600次,并成为大模型落地的重要方法[4][27][31] YOLO (You Only Look Once) - 论文《You Only Look Once: Unified, Real-Time Object Detection》在2015年被ICCV会议拒稿[29][32] - 在R-CNN系列主导的时代,评审因其定位精度(mAP)不如当时最优方法而拒绝,忽视了其实现45 FPS实时检测的速度突破[29] - YOLO系列已成为工业界最受欢迎的检测框架,其论文引用量超过69,782次[30][32] RoBERTa - 论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》在投稿ICLR 2020时被拒[34] - 评审认为其新颖性和技术贡献有限,只是证明了“仔细调参”和“更多数据”的有效性[34] - 该工作成为后续NLP研究的标准基线,论文引用量超过23,479次,揭示了优化训练细节的实战价值[34] Mamba - 论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》在ICLR 2024的评审中折戟[35][38] - 评审认为与其前作相比增量不足,且未能在所有任务上全面超越Transformer[37] - 尽管被拒,该架构在社区引发巨大反响,基于Mamba的变体大量涌现,成为2024年最具影响力的架构创新之一,论文引用量已超过6,799次[38][39] 跨领域的启示与案例 - 即使是阿尔伯特·爱因斯坦关于引力波的论文也曾被《Physical Review》送审并收到尖锐的匿名评审意见,尽管该意见后来被证实指出了论文中的一个错误[44][47] - 这些案例表明,一项研究的最终价值取决于其解决问题的能力及历史回响,而非短暂的评审决定[47] - 许多具有深远影响的研究者,包括图灵奖和诺贝尔奖得主,都曾经历过论文被拒[48]
Cartesia: 3 个月融资 9100 万美元,从 Transformer 到 Mamba 重塑语音 AI
海外独角兽· 2025-04-03 12:04
文章核心观点 - 文章认为,以Mamba为代表的状态空间模型(SSM)架构,为解决Transformer模型在长序列处理上的计算效率瓶颈提供了新路径,尤其在音频等连续信号处理领域展现出巨大潜力 [9] - 文章指出,语音生成初创公司Cartesia是Mamba架构在商业化领域的核心代言人,其基于SSM的“高语音质量+低延迟”产品,正在语音AI市场获得竞争优势并推动实时多模态交互的发展 [4][17] 从 Transformer 到 Mamba - Transformer是当前大语言模型的主流架构,但其自注意力机制具有O(n²)的二次计算复杂度,限制了模型处理长序列的能力 [7][8] - 为突破Transformer的局限,业界发展出两条技术路线:一是在Transformer框架内进行优化(如RAG、MoE),二是探索后Transformer架构,其中基于SSM的Mamba模型备受关注 [8][9] - Mamba模型由Albert Gu和Tri Dao提出,是SSM系列研究的延续,其通过选择性机制和硬件适配实现了线性时间复杂度O(N),在同算力规模下具备Transformer **5倍**的吞吐量 [9][14] - Mamba与Transformer并非简单的替代关系,两者在数学上存在紧密关联,最新的状态空间对偶(SSD)框架揭示了它们之间的等价性,业界也出现了Hybrid-Mamba-Transformer融合架构 [10][13] - 尽管Mamba在理论上具备线性复杂度、低延迟和低内存消耗的优势,但其实际应用仍面临迁移成本高、生态不完善、规模化验证不足以及缺乏杀手级应用等挑战 [15][16] Cartesia - Mamba 架构的代言人 - Cartesia是一家成立于2023年9月的语音AI初创公司,其核心创始团队均来自斯坦福大学AI实验室,是Mamba及SSM系列研究的提出者和核心贡献者 [4][17] - 公司的使命是构建“面向所有设备的实时多模态智能”平台,其长期愿景是将模型从数据中心依赖转向边缘设备,实现高效、实时、低成本的交互体验 [19] - 公司的核心技术是基于SSM架构的多流模型,能够在多个模态的数据流上持续推理和生成,实现端到端的高效流式推理和精准控制 [19] - 公司现阶段产品主要聚焦于语音领域,旗舰产品为Sonic系列文本转语音模型及API,最新版本Sonic 2.0将系统延迟从**90毫秒**缩短至**45毫秒**,在测试中被用户选择的概率是竞品Elevenlabs的**1.5倍** [3][23] - Sonic产品具备多项优势:首音频播放时间低至**95毫秒**、语音拟真度高、支持大规模并发、能精准解析关键信息,其困惑度较传统TTS模型降低**20%**,单词错误率降低**2倍** [22][23][24] - 公司另一重要产品是Voice Changer,可将输入语音转换为目标音色同时保留原始情感和表达特征,适用于内容创作、游戏开发及企业服务等多个领域 [25] - 公司的商业模式采用分层订阅制,其旗舰模型Sonic已吸引了**10,000多家**客户,包括Quora、Cresta等,并通过与11x、Toby、Daily.co、Vapi等平台合作,切入销售、实时翻译、视频通讯、医疗保健等垂直行业 [26][27] 团队及融资 - Cartesia的核心团队由斯坦福大学Stanford Statistical Machine Learning Group的成员构成,包括Mamba提出者Albert Gu、Karan Goel、Arjun Desai、Brandon Yang及其共同导师Chris Ré [4][32][34] - 团队在SSM领域有深厚积累,共同的研究成果包括HiPPO、S4等,为Mamba的诞生奠定了技术基础 [9][34] - 2025年3月11日,公司完成**6400万美元**的A轮融资,由Kleiner Perkins领投,Lightspeed、Index等机构跟投,至此公司融资总额达**9100万美元**,员工仅**26名** [3][35] 市场 - 语音生成市场正快速发展,Y Combinator孵化项目中,voice-native公司的数量在冬季和秋季周期之间增长了**70%** [4][36] - TTS作为通用技术,在销售代理、客户支持、内容创作、游戏、教育等领域应用广泛,2024年全球市场规模约**40亿美元**,并以超过**15%**的年复合增长率增长,预计到2033年将达到**146亿美元** [36][42] - 市场竞争者包括提供捆绑解决方案的云巨头(如AWS、Google Cloud)、开源模型(如Meta Llama)以及Elevenlabs、Deepgram等初创公司 [45][48] - 与主要竞品相比,Cartesia在“语音质量+延迟”维度具备优势:在LabelBox的评估中排名第一的概率为**27.93%**,而Elevenlabs为**10.68%**;其首次音频时间(TTFA)为**199毫秒**,远低于Elevenlabs自助服务层的**832毫秒** [51][55] - 竞争呈现差异化格局:Elevenlabs在内容创作领域凭借顶级音质占据领先地位;Deepgram在ASR和成本效益上领先;Cartesia则以低延迟(如**200毫秒**)、高音质和快速语音克隆技术抢占市场,目前在部分代理商份额中约占**20%** [58][60] - 未来趋势是技术路线的选择与融合,端到端语音交互、多模态能力是关键,基于Mamba的SSM架构为实时多模态AI提供了新的可能性 [60]