Nvidia-马斯克新模型背后算法来自英伟达？？？

核心观点 - Grok-4-fast在推理效率上表现卓越，其背后可能与英伟达的算法突破有关[1] - 英伟达研究团队推出的Jet-Nemotron模型通过PortNAS框架，实现了约53倍的推理速度提升，且性能与顶尖开源模型相当[1] 算法突破：PortNAS框架 - PortNAS框架以预训练的全注意力模型为起点，冻结MLP权重，仅探索注意力机制改进，使训练成本降低数个数量级[3] - 框架流程包括全注意力层放置、选择最优线性注意力模块、设计更优模块及硬件感知架构搜索四个核心部分[3] - 实验证明，在仅使用2层全注意力时，PortNAS准确率约49%，优于均匀放置策略的约40%[4] 模型架构优化 - 在全注意力层放置环节，研究发现并非所有注意力层都重要，少量关键层即可覆盖大部分任务需求[4] - 在线性注意力模块选择中，评估了六种先进模块，Gated DeltaNet因数据依赖门控机制和Delta规则而准确率最高[4] - 英伟达设计了名为JetBlock的更优线性注意力模块，它采用动态卷积核，在数学推理和检索任务上准确率优于Gated DeltaNet[5][6][7][8] 硬件感知架构搜索 - 硬件感知架构搜索以生成吞吐量为直接目标优化超参数，而非参数量[10][11] - 研究发现KV缓存大小是影响长上下文生成吞吐量的最关键因素，在固定KV缓存大小时，不同参数规模模型的生成吞吐量相似[12] - 优化后版本在保持吞吐量约2,955-2,986 token/s不变的情况下，参数量增至1.84B，数学准确率提升至34.8%[13] 行业潜在影响 - 该技术可使大型语言模型推理阶段GPU使用时长减少47倍，实现更快的推理速度[14] - 更小的内存需求使得在更廉价硬件上部署成为可能[15] - 更高的吞吐量意味着模型厂商可在现有基础设施下服务更多用户[16] - PortNAS提供低成本、高效率的架构探索方式，适用于任何预训练Transformer，厂商可借此大幅降低模型成本且几乎不影响准确率[17][18] 技术关联与推测 - 鉴于Grok-4-fast与Jet-Nemotron二者表现高度相似，有推测认为Grok-4-fast可能基于Jet-Nemotron创造[20][22] - 从Grok-4-fast的定价下降水平看，与论文预计的便宜20倍到50倍相符[22] - 该技术若属实，同样可被OpenAI、Anthropic、Google等公司部署[22] - Jet-Nemotron的代码和预训练模型将在法律审查完成后开源[19]