Workflow
模型架构优化
icon
搜索文档
马斯克新模型背后算法来自英伟达???
搜狐财经· 2025-09-26 00:19
核心观点 - Grok-4-fast在推理效率上表现卓越,其背后可能与英伟达的算法突破有关[1] - 英伟达研究团队推出的Jet-Nemotron模型通过PortNAS框架,实现了约53倍的推理速度提升,且性能与顶尖开源模型相当[1] 算法突破:PortNAS框架 - PortNAS框架以预训练的全注意力模型为起点,冻结MLP权重,仅探索注意力机制改进,使训练成本降低数个数量级[3] - 框架流程包括全注意力层放置、选择最优线性注意力模块、设计更优模块及硬件感知架构搜索四个核心部分[3] - 实验证明,在仅使用2层全注意力时,PortNAS准确率约49%,优于均匀放置策略的约40%[4] 模型架构优化 - 在全注意力层放置环节,研究发现并非所有注意力层都重要,少量关键层即可覆盖大部分任务需求[4] - 在线性注意力模块选择中,评估了六种先进模块,Gated DeltaNet因数据依赖门控机制和Delta规则而准确率最高[4] - 英伟达设计了名为JetBlock的更优线性注意力模块,它采用动态卷积核,在数学推理和检索任务上准确率优于Gated DeltaNet[5][6][7][8] 硬件感知架构搜索 - 硬件感知架构搜索以生成吞吐量为直接目标优化超参数,而非参数量[10][11] - 研究发现KV缓存大小是影响长上下文生成吞吐量的最关键因素,在固定KV缓存大小时,不同参数规模模型的生成吞吐量相似[12] - 优化后版本在保持吞吐量约2,955-2,986 token/s不变的情况下,参数量增至1.84B,数学准确率提升至34.8%[13] 行业潜在影响 - 该技术可使大型语言模型推理阶段GPU使用时长减少47倍,实现更快的推理速度[14] - 更小的内存需求使得在更廉价硬件上部署成为可能[15] - 更高的吞吐量意味着模型厂商可在现有基础设施下服务更多用户[16] - PortNAS提供低成本、高效率的架构探索方式,适用于任何预训练Transformer,厂商可借此大幅降低模型成本且几乎不影响准确率[17][18] 技术关联与推测 - 鉴于Grok-4-fast与Jet-Nemotron二者表现高度相似,有推测认为Grok-4-fast可能基于Jet-Nemotron创造[20][22] - 从Grok-4-fast的定价下降水平看,与论文预计的便宜20倍到50倍相符[22] - 该技术若属实,同样可被OpenAI、Anthropic、Google等公司部署[22] - Jet-Nemotron的代码和预训练模型将在法律审查完成后开源[19]