JEPA

搜索文档
Meta没做的,英伟达做了!全新架构吞吐量狂飙6倍,20万亿Token训练
具身智能之心· 2025-08-20 00:03
文章核心观点 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用创新Mamba-Transformer混合架构 在数学、代码、推理与长上下文任务中表现与Qwen3-8B持平或更优 同时实现最高6倍推理吞吐量提升 [1][4][6] - 模型通过结构化剪枝与知识蒸馏技术将12B基础模型压缩至9B 显著降低部署资源需求 [31][38][39] - 公司同步开源包括预训练数据集、基础模型及对齐模型在内的完整生态资源 覆盖6.6万亿高质量多模态训练数据 [44] 模型架构创新 - 采用Nemotron-H混合架构 使用Mamba-2层替换传统Transformer自注意力层 实现线性计算复杂度与超长序列处理能力 [16][17][28] - 混合架构兼顾Transformer在记忆复制与上下文学习任务的优势 以及Mamba在长上下文建模中的效率 [29][30] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升 支持128k上下文长度 [39][42] 训练与优化策略 - 基于20万亿token数据集进行FP8预训练 构建120亿参数基础模型Nemotron-Nano-12B-v2-Base [32][34] - 结合SFT、DPO、GRPO、RLHF多阶段对齐方法提升推理、对话与工具调用能力 [36] - 通过Minitron策略进行结构化剪枝与知识蒸馏 最终压缩至90亿参数且保持单卡A10G GPU可部署 [38][39] 性能表现 - 在GSM8K、MATH等数学基准测试达到97.8%准确率 代码任务(HumanEval+/MBPP+)与通用推理(MMLU-Pro)表现优于同类开源模型 [41][43] - 长上下文任务(RULER128k)性能持平Gemma3-12B等更大参数模型 [41] - 工具调用能力支持实时天气查询、角色描述等具体应用场景 [10] 开源生态建设 - 在HuggingFace平台开源三个核心模型:9B对齐模型、9B基础模型及12B基础模型 [44] - 发布Nemotron-Pre-Training-Dataset-v1数据集 包含6.6万亿token 覆盖网页爬取、数学、代码及多语言问答数据 [44] - 专项开源1330亿token数学数据集(Nemotron-CC-Math-v1)与多编程语言代码数据集(Nemotron-Pretraining-Code-v1) [44] 行业竞争格局 - 英伟达在开源模型领域持续投入 与Meta转向闭源策略形成对比 [45][47] - 架构创新竞赛加剧 除Mamba外Meta推进JEPA/LCMs 谷歌DeepMind投入50%研究力量开发Titans/Atlas等新架构 [21][22] - 模型小型化与效率优化成为行业焦点 9B模型在特定任务性能比肩更大参数模型 [41][39]
Meta没做的,英伟达做了,全新架构吞吐量狂飙6倍,20万亿Token训练
36氪· 2025-08-19 02:33
产品发布 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用革命性Mamba-Transformer混合架构 在数学 代码 推理与长上下文任务中表现对标Qwen3-8B并实现推理吞吐量最高提升6倍[1] - 模型通过Mamba-2架构实现性能突破 用闪电般快速的Mamba-2层替换传统Transformer中绝大多数自注意力层 在处理超长序列时推理速度比Transformer快3-5倍且复杂度为线性级别 支持百万级token上下文[10][15] - 模型训练包含三个阶段 首先在20万亿token数据集上预训练120亿参数基础模型 再结合SFT DPO GRPO RLHF等多阶段对齐方法 最后通过Minitron策略进行结构化剪枝与知识蒸馏 将12B模型压缩至9B参数[17][19][21][22] 性能表现 - 在数学基准测试GSM8K和MATH500中分别达到72.1%和97.8%准确率 在代码基准HumanEval+和MBPP+ 通用推理MMLU-Pro及长上下文RULER128k测试中优于或持平Qwen3-8B和Gemma3-12B等同类开源模型[23][24] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升 在GPQA测试中达64.0% LCB测试71.1% BFCL v3测试66.9% 指令遵循能力在IFEVAL-Prompt和IFEVAL-Instruction测试中分别达85.4%和90.3%[23][24] 开源生态 - 在HuggingFace平台全面开放三个模型:对齐并剪枝的9B推理模型 经过剪枝的9B基础模型 以及未剪枝的12B基础模型 均支持128K上下文长度[25] - 同步开源6.6万亿token高质量预训练数据集 包含Nemotron-CC-v2网页爬取数据 Nemotron-CC-Math-v1数学数据集(1330亿token) Nemotron-Pretraining-Code-v1代码数据集及Nemotron-Pretraining-SFT-v1指令调优数据集[25][26] - 提供数据集采样版本包含10个代表性子集 展示高质量问答数据 数学抽取内容 代码元数据及SFT指令数据[27] 行业技术趋势 - 混合架构成为新方向 Mamba通过选择性机制动态调整参数专注保留相关信息 擅长长上下文建模但记忆复制能力不足 而Transformer存在O(n²)计算瓶颈 混合架构可互补优势[16] - 多家公司推进新架构研发 Meta推进JEPA和LCMs 谷歌DeepMind在Titans Atlas Genie3等方向投入约50%研究力量 OpenAI可能储备新架构 Ilya的SSI项目疑似采用全新架构[11][14]
深聊GPT-5发布:过度营销的反噬与AI技术困局
钛媒体APP· 2025-08-12 03:18
GPT-5发布与市场反响 - GPT-5上线次日因用户批评恢复向付费用户提供GPT-4o [1] - 发布会展示存在数据图表错误、代码演示漏洞及科学原理解释误导问题 [3] - 核心技术更新"Router"被硅谷AI从业者指出为已存在数年的技术 [3] 技术架构与性能表现 - GPT-5采用实时路由器(Real-time Model Router)整合子模型而非端到端单一模型 [6][7] - 路由器技术原用于设备端成本平衡、多模型聚合及高频简单查询处理场景 [8] - 编程基准测试(SWE-bench)图表显示GPT-5准确率52.8% 但柱状图错误高于o3模型69.1% [27] - 多模态整合面临计算需求差异挑战 语音模块需低延时而研究模块可容忍数分钟延迟 [9] 垂直领域商业化战略 - 重点布局教育、健康医疗和编程三大垂直领域 [13] - 教育场景展示多模态语言学习功能 可自动生成法语学习网页及游戏应用 [14] - 健康医疗领域瞄准占美国GDP 18%的市场规模 [20] - 全球AI医疗市场规模预计从2024年26.69亿美元增至2030年188.38亿美元 年复合增长率38.62% [20] - 编程领域与Anthropic展开竞争 Cursor公司站队OpenAI对抗Claude Code产品 [22] 模型开发困境与瓶颈 - 内部项目Q-Star最终转化为o系列模型 侧重思维链推理但未达GPT-5命名标准 [37] - Orion项目(后称GPT-4.5)因高质量数据匮乏延期 依赖合成数据训练效果未达预期 [41] - 模型训练出现灾难性遗忘(Catastrophic Forgetting)现象 导致原有知识体系崩溃 [44] - Scaling Law面临瓶颈 预训练阶段性能增长放缓 [41][45] 未来技术发展路径 - 强化学习(RL)路线专注于目标驱动型任务 依赖通用验证器(Universal Verifier)提升答案质量 [46][49] - 多模态能力被视为关键突破方向 视频与世界模型(World Model)可拓展信息承载量 [55] - 联合嵌入预测架构(JEPA)成为替代Transformer的潜在方案 在潜层空间完成预测任务 [59] - 谷歌发布世界模型Genie 3 被部分业内人士认为重要性超过GPT-5 [56] 行业竞争与市场影响 - 语言学习公司多邻国股价在GPT-5发布会期间出现大幅震荡 [16] - OpenAI投资医疗AI公司Ambience Healthcare完成C轮2.43亿美元融资 [20] - 头部大模型公司开启价格战 争夺企业订单与市场份额 [3] - 基准测试(Benchmark)重要性下降 竞争前沿转向用户体验优化 [30]