状态空间模型

搜索文档
Meta没做的,英伟达做了!全新架构吞吐量狂飙6倍,20万亿Token训练
具身智能之心· 2025-08-20 00:03
文章核心观点 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用创新Mamba-Transformer混合架构 在数学、代码、推理与长上下文任务中表现与Qwen3-8B持平或更优 同时实现最高6倍推理吞吐量提升 [1][4][6] - 模型通过结构化剪枝与知识蒸馏技术将12B基础模型压缩至9B 显著降低部署资源需求 [31][38][39] - 公司同步开源包括预训练数据集、基础模型及对齐模型在内的完整生态资源 覆盖6.6万亿高质量多模态训练数据 [44] 模型架构创新 - 采用Nemotron-H混合架构 使用Mamba-2层替换传统Transformer自注意力层 实现线性计算复杂度与超长序列处理能力 [16][17][28] - 混合架构兼顾Transformer在记忆复制与上下文学习任务的优势 以及Mamba在长上下文建模中的效率 [29][30] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升 支持128k上下文长度 [39][42] 训练与优化策略 - 基于20万亿token数据集进行FP8预训练 构建120亿参数基础模型Nemotron-Nano-12B-v2-Base [32][34] - 结合SFT、DPO、GRPO、RLHF多阶段对齐方法提升推理、对话与工具调用能力 [36] - 通过Minitron策略进行结构化剪枝与知识蒸馏 最终压缩至90亿参数且保持单卡A10G GPU可部署 [38][39] 性能表现 - 在GSM8K、MATH等数学基准测试达到97.8%准确率 代码任务(HumanEval+/MBPP+)与通用推理(MMLU-Pro)表现优于同类开源模型 [41][43] - 长上下文任务(RULER128k)性能持平Gemma3-12B等更大参数模型 [41] - 工具调用能力支持实时天气查询、角色描述等具体应用场景 [10] 开源生态建设 - 在HuggingFace平台开源三个核心模型:9B对齐模型、9B基础模型及12B基础模型 [44] - 发布Nemotron-Pre-Training-Dataset-v1数据集 包含6.6万亿token 覆盖网页爬取、数学、代码及多语言问答数据 [44] - 专项开源1330亿token数学数据集(Nemotron-CC-Math-v1)与多编程语言代码数据集(Nemotron-Pretraining-Code-v1) [44] 行业竞争格局 - 英伟达在开源模型领域持续投入 与Meta转向闭源策略形成对比 [45][47] - 架构创新竞赛加剧 除Mamba外Meta推进JEPA/LCMs 谷歌DeepMind投入50%研究力量开发Titans/Atlas等新架构 [21][22] - 模型小型化与效率优化成为行业焦点 9B模型在特定任务性能比肩更大参数模型 [41][39]
Meta没做的,英伟达做了,全新架构吞吐量狂飙6倍,20万亿Token训练
36氪· 2025-08-19 02:33
产品发布 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用革命性Mamba-Transformer混合架构 在数学 代码 推理与长上下文任务中表现对标Qwen3-8B并实现推理吞吐量最高提升6倍[1] - 模型通过Mamba-2架构实现性能突破 用闪电般快速的Mamba-2层替换传统Transformer中绝大多数自注意力层 在处理超长序列时推理速度比Transformer快3-5倍且复杂度为线性级别 支持百万级token上下文[10][15] - 模型训练包含三个阶段 首先在20万亿token数据集上预训练120亿参数基础模型 再结合SFT DPO GRPO RLHF等多阶段对齐方法 最后通过Minitron策略进行结构化剪枝与知识蒸馏 将12B模型压缩至9B参数[17][19][21][22] 性能表现 - 在数学基准测试GSM8K和MATH500中分别达到72.1%和97.8%准确率 在代码基准HumanEval+和MBPP+ 通用推理MMLU-Pro及长上下文RULER128k测试中优于或持平Qwen3-8B和Gemma3-12B等同类开源模型[23][24] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升 在GPQA测试中达64.0% LCB测试71.1% BFCL v3测试66.9% 指令遵循能力在IFEVAL-Prompt和IFEVAL-Instruction测试中分别达85.4%和90.3%[23][24] 开源生态 - 在HuggingFace平台全面开放三个模型:对齐并剪枝的9B推理模型 经过剪枝的9B基础模型 以及未剪枝的12B基础模型 均支持128K上下文长度[25] - 同步开源6.6万亿token高质量预训练数据集 包含Nemotron-CC-v2网页爬取数据 Nemotron-CC-Math-v1数学数据集(1330亿token) Nemotron-Pretraining-Code-v1代码数据集及Nemotron-Pretraining-SFT-v1指令调优数据集[25][26] - 提供数据集采样版本包含10个代表性子集 展示高质量问答数据 数学抽取内容 代码元数据及SFT指令数据[27] 行业技术趋势 - 混合架构成为新方向 Mamba通过选择性机制动态调整参数专注保留相关信息 擅长长上下文建模但记忆复制能力不足 而Transformer存在O(n²)计算瓶颈 混合架构可互补优势[16] - 多家公司推进新架构研发 Meta推进JEPA和LCMs 谷歌DeepMind在Titans Atlas Genie3等方向投入约50%研究力量 OpenAI可能储备新架构 Ilya的SSI项目疑似采用全新架构[11][14]
浙大MambaMap:基于状态空间模型的在线矢量高精地图构建
自动驾驶之心· 2025-08-04 23:33
技术框架创新 - 提出MambaMap框架 利用状态空间模型高效融合长距离时间信息实现在线矢量高精地图构建[4][5] - 引入门控机制在BEV特征级和实例查询级进行高效信息选择与集成[5] - 设计多向扫描策略和时空扫描策略分别增强BEV级和实例级特征提取能力[5][18] 性能表现优势 - 在60×30m感知范围下 mAP达到64.9% 超越VectorMapNet的37.9%和StreamMapNet的61.1%[11] - 在100×50m扩展范围下 mAP达到60.7% 优于StreamMapNet的57.9%[11] - 在nuScenes数据集上mAP达40.1% 显著超过MemFusionMap的38.0%和SQD-MapNet的37.3%[12] - 在Argoverse2数据集上mAP达61.0% 与MemFusionMap的60.6%和SQD-MapNet的60.6%相比保持领先[12] 模块有效性验证 - 同时使用BMF和IMF模块时mAP达67.3% 相比单独使用任一模组提升显著[14] - 多向扫描策略使BMF模块mAP提升至67.3% 较单向扫描的64.9%提高2.4个百分点[16] - 时空扫描策略在IMF模块实现最佳效果 具体指标未完整呈现但显示优化趋势[16] 计算效率特征 - 处理帧率为13.6 FPS 与主流方法如StreamMapNet的15.9 FPS和SQD-MapNet的15.4 FPS处于同一量级[11] - 采用动态记忆机制以最小计算开销捕获长距离依赖关系[18] - 框架具备强鲁棒性和泛化能力 适用于多种自动驾驶场景[18]