Mamba - Transformer混合架构

搜索文档
Meta没做的,英伟达做了!全新架构吞吐量狂飙6倍,20万亿Token训练
具身智能之心· 2025-08-20 00:03
文章核心观点 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用创新Mamba-Transformer混合架构 在数学、代码、推理与长上下文任务中表现与Qwen3-8B持平或更优 同时实现最高6倍推理吞吐量提升 [1][4][6] - 模型通过结构化剪枝与知识蒸馏技术将12B基础模型压缩至9B 显著降低部署资源需求 [31][38][39] - 公司同步开源包括预训练数据集、基础模型及对齐模型在内的完整生态资源 覆盖6.6万亿高质量多模态训练数据 [44] 模型架构创新 - 采用Nemotron-H混合架构 使用Mamba-2层替换传统Transformer自注意力层 实现线性计算复杂度与超长序列处理能力 [16][17][28] - 混合架构兼顾Transformer在记忆复制与上下文学习任务的优势 以及Mamba在长上下文建模中的效率 [29][30] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升 支持128k上下文长度 [39][42] 训练与优化策略 - 基于20万亿token数据集进行FP8预训练 构建120亿参数基础模型Nemotron-Nano-12B-v2-Base [32][34] - 结合SFT、DPO、GRPO、RLHF多阶段对齐方法提升推理、对话与工具调用能力 [36] - 通过Minitron策略进行结构化剪枝与知识蒸馏 最终压缩至90亿参数且保持单卡A10G GPU可部署 [38][39] 性能表现 - 在GSM8K、MATH等数学基准测试达到97.8%准确率 代码任务(HumanEval+/MBPP+)与通用推理(MMLU-Pro)表现优于同类开源模型 [41][43] - 长上下文任务(RULER128k)性能持平Gemma3-12B等更大参数模型 [41] - 工具调用能力支持实时天气查询、角色描述等具体应用场景 [10] 开源生态建设 - 在HuggingFace平台开源三个核心模型:9B对齐模型、9B基础模型及12B基础模型 [44] - 发布Nemotron-Pre-Training-Dataset-v1数据集 包含6.6万亿token 覆盖网页爬取、数学、代码及多语言问答数据 [44] - 专项开源1330亿token数学数据集(Nemotron-CC-Math-v1)与多编程语言代码数据集(Nemotron-Pretraining-Code-v1) [44] 行业竞争格局 - 英伟达在开源模型领域持续投入 与Meta转向闭源策略形成对比 [45][47] - 架构创新竞赛加剧 除Mamba外Meta推进JEPA/LCMs 谷歌DeepMind投入50%研究力量开发Titans/Atlas等新架构 [21][22] - 模型小型化与效率优化成为行业焦点 9B模型在特定任务性能比肩更大参数模型 [41][39]