NVIDIA Nemotron Nano 2模型

搜索文档
英伟达新模型上线,4B推理狂飙53倍,全新注意力架构超越Mamba 2
36氪· 2025-08-27 02:03
产品发布 - 英伟达推出全新Jet-Nemotron小模型系列 包含2B和4B两个版本[1][2] - 该系列由全华人团队打造 核心创新为后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock[1][8] - 相比前代产品 公司近期密集布局小模型领域 上周刚发布9B大小的NVIDIA Nemotron Nano 2模型[5][7] 技术架构 - PostNAS采用训练后架构探索与适配方法 在预训练Transformer模型基础上构建 大幅降低开发新架构的成本和风险[9][10] - 该方法首先确定全注意力层最佳放置位置 再搜索改进的注意力块设计[9][14] - JetBlock模块将动态卷积与硬件感知架构搜索结合 在保持训练和推理吞吐量的同时实现显著准确率提升[18] 性能表现 - 在H100 GPU上推理吞吐量最高提升53.6倍 其中Jet-Nemotron-2B相对Qwen 3-1.7B在长上下文场景解码吞吐量可达50倍提升[1][4][5] - 在六个核心维度(MMLU-pro、Math、Retrieval、Commonsense、Code、Long)表现全面领先 雷达图呈现"六边形战士"特征[4] - 具体数据:Jet-Nemotron-4B在GSM8K数学测试达78.7分 显著高于Qwen3-1.7B的62.8分;在代码测试EvalPlus达65.6分 优于对比模型[21] 效率优化 - KV缓存大小是影响长上下文和长生成吞吐量的最关键因素 PostNAS硬件感知搜索能发现更多参数同时保持相似生成吞吐量的架构[16] - Jet-Nemotron-4B在64k上下文长度下缓存大小仅154MB 远小于Qwen3-1.7B的7168MB 最大吞吐量达1271 token/s[21] - 架构优化使模型在保持高准确率的同时 实现数量级的吞吐量提升 特别是在长上下文场景优势更加明显[5][16]
Meta没做的,英伟达做了!全新架构吞吐量狂飙6倍,20万亿Token训练
具身智能之心· 2025-08-20 00:03
文章核心观点 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用创新Mamba-Transformer混合架构 在数学、代码、推理与长上下文任务中表现与Qwen3-8B持平或更优 同时实现最高6倍推理吞吐量提升 [1][4][6] - 模型通过结构化剪枝与知识蒸馏技术将12B基础模型压缩至9B 显著降低部署资源需求 [31][38][39] - 公司同步开源包括预训练数据集、基础模型及对齐模型在内的完整生态资源 覆盖6.6万亿高质量多模态训练数据 [44] 模型架构创新 - 采用Nemotron-H混合架构 使用Mamba-2层替换传统Transformer自注意力层 实现线性计算复杂度与超长序列处理能力 [16][17][28] - 混合架构兼顾Transformer在记忆复制与上下文学习任务的优势 以及Mamba在长上下文建模中的效率 [29][30] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升 支持128k上下文长度 [39][42] 训练与优化策略 - 基于20万亿token数据集进行FP8预训练 构建120亿参数基础模型Nemotron-Nano-12B-v2-Base [32][34] - 结合SFT、DPO、GRPO、RLHF多阶段对齐方法提升推理、对话与工具调用能力 [36] - 通过Minitron策略进行结构化剪枝与知识蒸馏 最终压缩至90亿参数且保持单卡A10G GPU可部署 [38][39] 性能表现 - 在GSM8K、MATH等数学基准测试达到97.8%准确率 代码任务(HumanEval+/MBPP+)与通用推理(MMLU-Pro)表现优于同类开源模型 [41][43] - 长上下文任务(RULER128k)性能持平Gemma3-12B等更大参数模型 [41] - 工具调用能力支持实时天气查询、角色描述等具体应用场景 [10] 开源生态建设 - 在HuggingFace平台开源三个核心模型:9B对齐模型、9B基础模型及12B基础模型 [44] - 发布Nemotron-Pre-Training-Dataset-v1数据集 包含6.6万亿token 覆盖网页爬取、数学、代码及多语言问答数据 [44] - 专项开源1330亿token数学数据集(Nemotron-CC-Math-v1)与多编程语言代码数据集(Nemotron-Pretraining-Code-v1) [44] 行业竞争格局 - 英伟达在开源模型领域持续投入 与Meta转向闭源策略形成对比 [45][47] - 架构创新竞赛加剧 除Mamba外Meta推进JEPA/LCMs 谷歌DeepMind投入50%研究力量开发Titans/Atlas等新架构 [21][22] - 模型小型化与效率优化成为行业焦点 9B模型在特定任务性能比肩更大参数模型 [41][39]
Meta没做的,英伟达做了,全新架构吞吐量狂飙6倍,20万亿Token训练
36氪· 2025-08-19 02:33
产品发布 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用革命性Mamba-Transformer混合架构 在数学 代码 推理与长上下文任务中表现对标Qwen3-8B并实现推理吞吐量最高提升6倍[1] - 模型通过Mamba-2架构实现性能突破 用闪电般快速的Mamba-2层替换传统Transformer中绝大多数自注意力层 在处理超长序列时推理速度比Transformer快3-5倍且复杂度为线性级别 支持百万级token上下文[10][15] - 模型训练包含三个阶段 首先在20万亿token数据集上预训练120亿参数基础模型 再结合SFT DPO GRPO RLHF等多阶段对齐方法 最后通过Minitron策略进行结构化剪枝与知识蒸馏 将12B模型压缩至9B参数[17][19][21][22] 性能表现 - 在数学基准测试GSM8K和MATH500中分别达到72.1%和97.8%准确率 在代码基准HumanEval+和MBPP+ 通用推理MMLU-Pro及长上下文RULER128k测试中优于或持平Qwen3-8B和Gemma3-12B等同类开源模型[23][24] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升 在GPQA测试中达64.0% LCB测试71.1% BFCL v3测试66.9% 指令遵循能力在IFEVAL-Prompt和IFEVAL-Instruction测试中分别达85.4%和90.3%[23][24] 开源生态 - 在HuggingFace平台全面开放三个模型:对齐并剪枝的9B推理模型 经过剪枝的9B基础模型 以及未剪枝的12B基础模型 均支持128K上下文长度[25] - 同步开源6.6万亿token高质量预训练数据集 包含Nemotron-CC-v2网页爬取数据 Nemotron-CC-Math-v1数学数据集(1330亿token) Nemotron-Pretraining-Code-v1代码数据集及Nemotron-Pretraining-SFT-v1指令调优数据集[25][26] - 提供数据集采样版本包含10个代表性子集 展示高质量问答数据 数学抽取内容 代码元数据及SFT指令数据[27] 行业技术趋势 - 混合架构成为新方向 Mamba通过选择性机制动态调整参数专注保留相关信息 擅长长上下文建模但记忆复制能力不足 而Transformer存在O(n²)计算瓶颈 混合架构可互补优势[16] - 多家公司推进新架构研发 Meta推进JEPA和LCMs 谷歌DeepMind在Titans Atlas Genie3等方向投入约50%研究力量 OpenAI可能储备新架构 Ilya的SSI项目疑似采用全新架构[11][14]