Workflow
PostNAS
icon
搜索文档
马斯克新模型背后算法来自英伟达???
量子位· 2025-09-25 23:54
核心观点 - Grok-4-fast在降本增效方面表现突出,可能采用了英伟达的算法技术Jet-Nemotron,实现高达53倍的推理速度提升和显著成本优化 [1][4][5] - 英伟达提出的PostNAS框架通过混合结构设计和硬件感知搜索,在保持模型准确率的同时大幅提升效率,适用于任何预训练Transformer模型 [10][34][35] - 该技术突破可能对行业产生深远影响,包括降低部署成本、提升吞吐量,并可能被主流AI公司采用 [40][43][47] 算法架构创新 - Jet-Nemotron-2B模型在MMLU和MMLU-Pro基准测试中表现优于Qwen3-1.7B-Base(准确率更高)和DeepSeek-V3-Small(参数量15B),同时实现47-53倍速度提升 [7][9] - PostNAS框架采用四步流程:全注意力层放置、线性注意力模块选择、优化模块设计、硬件感知架构搜索,训练成本降低数个数量级 [10][11][12] - 全注意力层放置实验显示,仅用2层全注意力时PostNAS准确率达49%,显著高于均匀放置策略的40% [13][14] 注意力模块优化 - 评估六种线性注意力模块(RWKV7/RetNet/Mamba2/GLA/DeltaNet/Gated DeltaNet),Gated DeltaNet因数据依赖门控机制和Delta规则获得最高准确率 [17][18][19] - 英伟达进一步开发JetBlock模块,采用动态卷积核生成器,在数学推理(准确率34.9%)和检索任务(准确率70.4%)上优于Gated DeltaNet [21][23][24] - 硬件感知搜索以生成吞吐量为目标,发现KV缓存大小是影响效率的关键因素,优化后参数量1.84B时数学准确率提升至34.8%(原1.7B模型为32.8%) [30][31][33] 行业影响与推测 - Grok-4-fast定价下降幅度(20-50倍)与Jet-Nemotron预测高度吻合,推测其采用类似技术,实现GPU使用时长减少47倍、内存需求降低和吞吐量提升 [38][40][42] - 技术具备普适性,可被OpenAI、Anthropic、Google等公司部署,但xAI未公开证实技术关联性 [43][44][47] - Jet-Nemotron代码和预训练模型将开源,法律审查完成后发布 [36] 研究团队背景 - 论文作者均为华人学者,一作为清华大学博士生顾煜贤,专注LLM效率提升研究;通讯作者为英伟达研究科学家Han Cai(论文引用超10,800次) [47][48][53][56] - 研究成果依托英伟达算法论文,核心突破来自算法创新而非硬件堆叠 [3][4][6]