状态空间模型（SSMs） - 财报，业绩电话会，研报，新闻 - Reportify

状态空间模型（SSMs）

搜索文档

Mamba一作预告新架构！长文论述Transformer≠最终解法

量子位· 2025-07-09 04:57

序列模型架构比较 - Mamba作为状态空间模型(SSMs)代表，在语言任务上3B规模超越同等Transformer，匹敌两倍规模Transformer [2] - SSMs工作方式类似人类大脑，通过压缩历史信息形成固定大小隐藏状态，适合处理长序列且计算成本呈线性增长 [15][16] - Transformer通过KV缓存完整记录所有token信息，具备精确记忆能力但计算成本呈二次复杂度 [23][25] 模型性能优势 - SSMs在语言/音频/DNA序列模态实现SOTA，计算效率高且内存需求固定 [16] - Mamba通过三大关键改进提升性能：扩大状态维度至RNN的N倍/引入选择性记忆机制/优化训练效率 [17][18][19][20] - Transformer依赖tokenization预处理，在多语言多模态场景存在局限性且违背端到端学习原则 [28][29][30] 架构融合趋势 - 混合架构中SSM层与注意力层最佳比例介于3:1至10:1之间 [37] - 注意力机制二次复杂度并非Transformer主要缺陷，新架构将保持兼容性 [5][7] - 未来方向是结合SSMs的在线处理能力与Transformer的精确检索优势，直接处理原始数据 [36][40] 行业技术发展 - Mamba作者预告几天后将发布架构领域重大进展 [3] - 当前共识可能被推翻，Transformer被视为阶段性最优解而非最终方案 [8] - 架构设计核心指标是FLOPs利用率，需快速转化为模型能力 [39]

注意力机制

Scaling Law定律

Transformer模型

状态空间模型（SSMs）

注意力机制

Scaling Law定律

Transformer模型

状态空间模型（SSMs）