状态空间模型（SSM） - 财报，业绩电话会，研报，新闻

状态空间模型（SSM）

搜索文档

搜狐财经· 2025-11-03 04:14

公司融资与产品发布 - Cartesia公司完成1亿美元B轮融资，投资方包括英伟达[1][6] - 公司于3月完成6400万美元A轮融资，并发布支持语音克隆与风格迁移的Sonic-2.0模型[6] - 公司成立第二年即获得种子轮融资，并推出首款语音模型Sonic[6] 核心技术特点 - Sonic-3语音模型基于状态空间模型构建，与传统Transformer架构不同，能持续感知上下文，响应更自然[8] - 模型延迟仅90毫秒，端到端响应时间为190毫秒，是当前最快的语音生成系统之一[8] - 模型能更准确捕捉语言中的情绪波动、笑声、语气起伏等微妙情感变化[8] 创始团队背景 - 公司创始团队核心成员清一色来自斯坦福AI实验室，为学术派班底[3] - 首席执行官Karan Goel为斯坦福AI Lab的印度天才少年，在状态空间模型领域已有研究[2][11] - 首席科学家兼联合创始人Albert Gu为华裔，是Mamba架构的共同发明人之一[4] 行业发展动态 - MiniMax公司发布语音模型MiniMax Speech 2.6，响应延迟压缩到250毫秒以内，支持40多种语言和所有口音[14][16] - 语音模型商业化变现在大模型领域表现突出[16]

状态空间模型（SSM）

语音AI

Artificial Intelligence

Artificial Intelligence

Sonic-3

MiniMax Speech 2.6

黄仁勋投了家复刻马斯克声音的AI公司

量子位· 2025-11-03 03:12

公司概况与融资进展 - 语音AI公司Cartesia发布新一代语音模型Sonic-3，其生成的语音与真人声音高度相似[1][2][14] - 公司完成1亿美元的B轮融资，投资方包括英伟达、Kleiner Perkins、Index Ventures和Lightspeed[3][13] - 公司在成立第二年获得种子轮融资，并于今年3月完成6400万美元的A轮融资，产品迭代与融资节奏迅速[11][12][13] 核心技术优势 - Sonic-3模型基于状态空间模型构建，与传统Transformer架构不同，SSM能持续感知上下文和对话氛围，无需反复遍历历史对话，使回应更自然[15][16][17] - 模型在响应速度上表现突出，延迟仅90毫秒，端到端响应时间为190毫秒，是当前最快的语音生成系统之一[17] - 模型能精准捕捉语言中的情绪波动、笑声、语气起伏等微妙情感变化，生成带情感的高质量语音[14][15] 创始团队背景 - 公司创始团队核心成员清一色来自斯坦福AI实验室，为学术派班底[5][7] - 首席执行官Karan Goel为印度天才少年，本科就读于印度理工学院德里分校，硕士毕业于卡内基梅隆大学，并在斯坦福AI实验室师从AI教父Chris Ré[5][20][21][22][24] - 首席科学家兼联合创始人Albert Gu是一名华裔，是Mamba架构的共同发明人之一[8] 行业发展动态 - 国内公司MiniMax同日发布语音模型MiniMax Speech 2.6，响应延迟压缩到250毫秒以内，支持40多种语言及所有口音[30][31] - 语音模型在大模型领域的商业化变现被认为是一枝独秀[34]

AI+HI系列：DecompGRNv1：基于线性RNN的端到端模型初探

华创证券· 2025-09-05 08:12

量化模型与构建方式 1. 模型名称：RNN-LIN - 模型构建思路：基于线性RNN构建的简化时序模型，移除非线性激活函数以提升训练效率并减少参数量[11][12] - 模型具体构建过程：输入序列为股票日频特征（高、开、低、收、均价、成交量）的150日时序数据[23] 模型结构包含遗忘门和输出门，使用sigmoid激活函数控制门控值在(0,1)范围内，隐状态迭代时不使用非线性激活函数[20] 具体计算公式如下： $$h_{t}=f_{t}\otimes h_{t-1}+(1-f_{t})\otimes c_{t}$$ $$y_{t}=o_{t}\otimes h_{t}$$ $$f_{t}=Sigmoid(x_{t}W_{f})$$ $$o_{t}=Sigmoid(x_{t}W_{o})$$ $$c_{t}=SiLU(x_{t}W_{c})$$ 其中$h_t$表示隐状态，$y_t$表示输出，$f_t$为遗忘门，$o_t$为输出门，$c_t$为候选状态，$W_f$、$W_o$、$W_c$为可学习参数矩阵[20] 参数量相比GRU模型减少约50%[20] - 模型评价：训练效率优于GRU，但性能略逊于GRU基线模型[22][47] 2. 模型名称：RNN-LIN-GLU - 模型构建思路：在线性RNN基础上耦合门控线性单元(GLU)以提升模型表达能力[21][22] - 模型具体构建过程：在RNN-LIN层后叠加GLU FFN模块组成block[21] GLU FFN的计算公式为： $$FFNSwiGLU(x,W,V,W_{2})=(Swish(xW)\otimes xV)W_{2}$$ 其中$W$、$V$、$W_2$为可学习参数矩阵[21] 其他构建过程与RNN-LIN相同[21] - 模型评价：GLU模块对RNN-LIN的性能提升效果优于对GRU的提升[45] 3. 模型名称：DecompGRN - 模型构建思路：基于线性RNN改进的时序-截面端到端模型，将截面信息直接整合进RNN门控单元[2][49] - 模型具体构建过程：采用两层RNN结构[50] 第一层线性RNN输出每个时间步的个股表征，使用市值作为分组特征进行20分组，计算股票分组去均值结果，得到包含截面信息的个股表征[50] 第二层构建线性RNN变体，将截面信息和时序融合共同输入遗忘门和输出门[50] 使用时序趋势分解模块将初始输入拆分为趋势与残差分量[89] 趋势分量输入1D卷积+RNN实现时序编码，残差分支使用深度可分离卷积[94][95] 最终将趋势和残差分支结果相加合并，输入第二个时序RNN编码器，取最后一个时间步输出通过线性预测头得到股票得分[96] 参数量仅为GRU基线模型的43%[74] - 模型评价：性能超越基线GRU模型，模型逻辑与参数量实现双重简化[2][74] 模型的回测效果 1. RNN-LIN模型 - 中证全指：RankIC 0.13，RankICIR 1.08，IC胜率 0.88[37] - 沪深300：RankIC 0.10，RankICIR 0.62，IC胜率 0.74[37] - 中证500：RankIC 0.09，RankICIR 0.71，IC胜率 0.78[37] - 中证1000：RankIC 0.12，RankICIR 0.96，IC胜率 0.86[37] 2. RNN-LIN-GLU模型 - 中证全指：RankIC 0.13，RankICIR 1.14，IC胜率 0.89[37] - 沪深300：RankIC 0.10，RankICIR 0.63，IC胜率 0.73[37] - 中证500：RankIC 0.10，RankICIR 0.74，IC胜率 0.79[37] - 中证1000：RankIC 0.12，RankICIR 1.01，IC胜率 0.87[37] 3. DecompGRN模型 - 中证全指：RankIC 0.141，RankICIR 1.26，IC胜率 0.89[55][89] - 沪深300：RankIC 0.099，RankICIR 0.65，IC胜率 0.74[55][89] - 中证500：RankIC 0.098，RankICIR 0.77，IC胜率 0.78[55][89] - 中证1000：RankIC 0.127，RankICIR 1.08，IC胜率 0.88[55][89] 量化因子与构建方式（报告中未明确提及独立的量化因子构建，主要关注端到端模型）因子的回测效果（报告中未提供独立因子的测试结果）分组测试绩效统计 1. RNN-LIN模型（层数1） - 中证全指：年化收益率42.59%，夏普比率1.46，最大回撤-36.71%，超额年化42.05%，平均单边换手0.81[42] - 沪深300：年化收益率28.59%，夏普比率1.38，最大回撤-22.09%，超额年化28.67%，平均单边换手0.66[42] - 中证500：年化收益率23.68%，夏普比率1.02，最大回撤-34.63%，超额年化23.95%，平均单边换手0.76[42] - 中证1000：年化收益率32.81%，夏普比率1.20，最大回撤-35.43%，超额年化33.72%，平均单边换手0.77[42] 2. RNN-LIN-GLU模型（层数1） - 中证全指：年化收益率48.73%，夏普比率1.60，最大回撤-35.33%，超额年化48.19%，平均单边换手0.81[42] - 沪深300：年化收益率29.92%，夏普比率1.38，最大回撤-23.62%，超额年化30.00%，平均单边换手0.65[42] - 中证500：年化收益率24.45%，夏普比率1.03，最大回撤-39.60%，超额年化24.72%，平均单边换手0.75[42] - 中证1000：年化收益率34.47%，夏普比率1.24，最大回撤-34.51%，超额年化35.38%，平均单边换手0.76[42] 3. DecompGRN模型 - 中证全指：年化收益率57.68%，夏普比率1.71，最大回撤-34.69%，超额年化56.18%，平均单边换手0.79[57][89] - 沪深300：年化收益率31.69%，夏普比率1.42，最大回撤-26.88%，超额年化31.00%，平均单边换手0.65[57][89] - 中证500：年化收益率26.90%，夏普比率1.10，最大回撤-37.82%，超额年化26.13%，平均单边换手0.74[57][89] - 中证1000：年化收益率40.35%，夏普比率1.37，最大回撤-35.51%，超额年化40.03%，平均单边换手0.74[57][89] 指增组合测试结果 DecompGRN模型指增表现 - 沪深300指增：年化超额收益10.24%，跟踪误差5.07，超额夏普1.95，超额最大回撤-8.12%，2025年累计超额3.93%[75][85][89] - 中证500指增：年化超额收益10.05%，跟踪误差6.10，超额夏普1.60，超额最大回撤-7.15%，2025年累计超额6.72%[75][85][89] - 中证1000指增：年化超额收益19.58%，跟踪误差6.75，超额夏普2.68，超额最大回撤-9.11%，2025年累计超额18.26%[75][85][89]

一个任务50次调用，成本狂砍90%？Manus首次公开上下文工程秘诀，一堆反复重写换来的教训

AI前线· 2025-07-21 07:04

核心观点 - 公司选择押注于上下文工程而非端到端训练模型使产品迭代周期从几周缩短至几小时并与底层模型进步保持正交关系 [1][2] - 上下文工程是实验科学已四次重建Agent框架通过"随机梯度下降"方法实现局部最优解 [2] - KV缓存命中率是生产阶段AI Agent最重要的单一指标直接影响延迟和成本缓存与非缓存token成本相差10倍 [4][5] - 文件系统被视为最终上下文解决长上下文窗口痛点实现无限大小、持久化存储和结构化外部记忆 [18][21] - 通过"背诵"机制操纵模型注意力典型任务需50次工具调用持续更新待办事项列表保持目标聚焦 [26][30] - 保留错误回合是改进Agent行为的有效方法错误恢复是真正Agent行为的清晰指标 [32][35] - 少样本提示在Agent系统中可能适得其反需增加多样性打破行为模式 [36][37] KV缓存设计 - 平均输入输出token比例达100:1 缓存显著降低生成第一个token时间和推理成本 [4][5] - 提高KV缓存命中率三原则：保持提示前缀稳定、上下文只追加内容、明确标记缓存断点 [8][9] - 时间戳等动态元素会破坏缓存序列化稳定性是关键某些框架需手动插入缓存断点 [9] 工具管理策略 - 工具数量激增导致模型选择低效应避免迭代中动态添加/移除工具 [11] - 采用上下文感知状态机管理工具可用性通过屏蔽token对数而非修改定义来约束动作选择 [11] - 工具定义位于上下文前端变更会导致后续KV缓存失效可能引发模式违规或幻觉动作 [14] - 设计一致前缀的动作名称(如browser_/shell_) 实现无状态对数处理器的工具组选择 [15] 文件系统应用 - 128K token上下文窗口在现实场景仍不足存在观察数据过大、性能下降和成本高三大痛点 [18][20] - 压缩策略需保持可恢复性如保留URL可恢复网页内容文档路径可恢复文档内容 [24] - 文件系统操作实现结构化外部记忆可能为状态空间模型(SSM)解锁新Agent类型 [24] 注意力管理 - 创建并持续更新todo.md文件是故意设计的注意力操纵机制 [26][27] - 通过重写待办事项将全局计划推入模型近期注意力范围避免50次工具调用中的目标偏离 [30] 错误处理机制 - 保留错误回合使模型能隐式更新内部信念减少重复错误概率 [35] - 错误恢复能力是真实Agent行为的指标但被学术基准低估 [35] 少样本提示优化 - 语言模型会模仿上下文中行为模式重复动作可能导致漂移和幻觉 [36] - 引入结构化变化(序列化模板/措辞/格式噪声)打破模式增加多样性提升鲁棒性 [37][38]

上下文工程

上下文学习

状态空间模型（SSM）

Artificial Intelligence

Artificial Intelligence

Manus

「Tokens是胡扯」，Mamba作者抛出颠覆性观点，揭露Transformer深层缺陷

机器之心· 2025-07-09 09:52

状态空间模型与Transformer的权衡 - 状态空间模型(SSM)通过固定大小的隐藏状态压缩历史信息，实现流式处理，而Transformer需要缓存所有历史token导致内存线性增长[24] - SSM在字节级建模任务中表现优于Transformer，即使后者使用更多计算资源，表明Transformer存在建模能力局限[53][55][56] - SSM与Transformer结合使用时(比例3:1到10:1)表现更优，类似人类智能通过大脑与外部数据库协同工作[29][30] Transformer的局限性 - Transformer需要数据预处理如tokenization或图像切块，本质上是对其建模缺陷的补偿[35][38][41] - 注意力机制对噪声token处理效率低下，计算量仍随token增加而增长，无法有效过滤冗余信息[69][70] - Transformer的归纳偏置使其过度关注单个token，在低语义密度数据(如字符/DNA序列)上表现较差[62][64][65] 现代循环模型技术演进 - Mamba通过动态转移矩阵、并行扫描算法和内存管理三大技术要素整合，实现与Transformer相当的语言建模性能[13][14][16] - 现代循环模型研究呈现爆发式增长，包括RWKV、xLSTM等变体，共享SISO线性递归和状态扩展核心特征[17][19] - SSM类模型在DNA建模等任务中展现优于Transformer的扩展能力，预示其在处理原生数据方面的优势[60][61] 架构设计哲学 - SSM类似大脑的压缩记忆机制可能促进抽象学习，而Transformer类似数据库的精确召回各有利弊[27][78] - 理想架构应具备处理噪声能力而不增加计算负担，当前模型均未完全解决此问题[71][72] - 扩展定律显示Transformer并非计算效率最优方案，存在改进空间以更好利用FLOP资源[87][88]

SSM+扩散模型，竟造出一种全新的「视频世界模型」

机器之心· 2025-05-31 04:00

研究背景与核心创新 - 研究结合状态空间模型(SSM)、扩散模型和世界模型等前沿技术，开发出新型视频世界模型，实现长期记忆与空间一致性的平衡 [1][9] - 传统视频扩散模型受限于注意力机制，难以维持长期一致性，导致环境模拟失真 [3][4][6] - 创新点在于采用Mamba的逐块扫描方案，配合局部注意力机制，显著提升长期记忆能力同时保持计算效率 [9][15][16] 技术架构设计 - 采用空间主/时间次的token排序方式，确保因果约束并防止未来信息泄露 [11] - 提出逐块重新排序方法：将token序列分解为(b_h,b_w,T)块，通过调整块大小平衡时间相关性与空间一致性 [13][15] - 引入帧局部注意力模块，采用窗口大小为k的因果注意力机制增强短期一致性 [16] - 动作条件处理：通过MLP处理连续动作值，直接学习离散动作嵌入实现交互控制 [17] 训练与推理优化 - 改进训练方案：保持随机长度前缀完全无噪声，强制模型学习长期依赖性 [18] - 推理阶段仅需维护前k帧KV缓存和块SSM状态，实现恒定内存占用和生成速度 [21] - 训练成本随上下文长度线性增长，显著优于传统二次复杂度模型 [39] 实验性能表现 Memory Maze数据集 - 检索任务(400帧)：SSIM达0.898，显著优于Mamba2(0.747)和因果Transformer(0.829) [25] - 推理任务(224帧)：SSIM达0.855，优于所有次二次模型 [26] - 长期记忆能力与全上下文因果Transformer(SSIM 0.914)接近 [25][27] TECO Minecraft数据集 - 推理任务(50帧)：SSIM达0.454，优于DFoT(0.450)和25帧上下文因果Transformer(0.417) [33] - 能准确预测已探索区域，而有限上下文模型失效 [36] 效率优势 - 训练时间线性扩展，推理保持恒定内存和计算成本 [39] - 单次前向传递速度显著快于全注意力机制 [39]

长视频理解新突破！Mamba混合架构让显存消耗腰斩，处理10万视频token不费力

量子位· 2025-03-27 04:16

模型架构创新 - 提出Mamba-Transformer混合架构Vamba模型通过改进架构设计而非压缩视频token来提升处理效率 [1][2] - 将传统因果自注意力分解为文本交叉注意力+视频Mamba-2模块的双路径设计计算复杂度从二次降至线性 [7] - Mamba-2模块采用选择性扫描机制在更新视频token时保持全局序列信息检索能力 [7] 性能突破 - 同等硬件下视频帧处理能力达传统Transformer的4倍训练内存消耗降低超50% [4] - 单步训练速度实现翻倍提升在128帧以上长视频场景运行时间与显存需求下降超50% [4][9] - LVBench长视频理解基准性能提升4.3% 完整保留原始视频时空特征避免信息丢失 [5][10] 技术实现细节 - 视频编码采用CLIP/SigLIP编码器每帧转换为196个token 512帧视频对应10万token量级 [6] - 文本处理保留因果自注意力机制通过交叉注意力实现视觉-语义对齐 [7] - 开源代码库包含模型权重(Qwen2-VL-7B)、训练推理脚本及7B参数规模预训练模型 [11] 应用场景优势 - 支持128帧以上超长视频理解准确描述内容并回答用户提问 [9] - 在中短时长视频任务中同样展现竞争力覆盖全视频时长区间的基准测试 [10] - 研究团队来自滑铁卢大学、多伦多大学及零一万物等机构产学研协同创新 [2]