能力密度
搜索文档
从ChatGPT3年8亿周活到Higgsfield5个月1亿美元ARR:学术和资本看见了“大模型的摩尔定律 ”|DeepTalk
锦秋集· 2025-12-01 10:00
从Scaling Law到Densing Law:大模型发展范式的转变 - 行业观点认为,单纯扩大模型参数和数据的“Scaling Law”正面临瓶颈,数据接近极限,模型规模的百倍扩张难以带来真正的能力跃迁 [2] - 研究提出新的发展范式,即从“做大模型”转向“做高效模型”,核心是提升“能力密度” [3] - 该观点基于对51个主流开源大语言模型演进轨迹的分析,发现最大能力密度呈指数提升,约每3.5个月翻一番 [3] 能力密度(Capability Density)的定义与计算 - 为定量评估不同规模与架构模型的质量,研究引入了“有效参数大小”的概念,即一个标准参考模型达到目标模型同等性能所需的参数量 [10][11][12] - 能力密度被定义为有效参数大小与实际参数大小的比值(ρ = N(S_M) / N_M),该指标可用于公平比较不同架构和精度的模型 [13] - 若ρ > 1,表明模型比参考模型更“致密”,即用更少的参数实现了更强的能力 [15] Densing Law的核心发现与驱动力 - 对51个主流开源基础模型的评估显示,大语言模型的最大能力密度随时间呈指数级增长,规律被命名为Densing Law [16][17] - 具体数据为:ln(ρ_max) = At + B,增长系数A≈0.007/天,最大能力密度约每3.5个月(105天)翻一番 [18] - 密度提升的核心驱动力是预训练数据规模的爆炸式增长(从T级到15T+)以及数据质量的显著提升 [19] - 研究指出,超大模型(如Llama-3.1-405B)受限于巨大的训练成本,往往训练不足,导致其“性价比”或密度略低于同期的中等规模模型 [19] Densing Law的主要推论与行业影响 - **推论1:参数量指数级减少**:为实现相同性能,模型所需实际参数量随时间呈指数下降,大约每3.5个月减半 [21] - **推论2:推理成本指数级降低**:在同等性能下,模型参数减少直接降低了推理计算成本,粗略计算推理成本约每2.6个月减半 [22][27] - **推论3:端侧智能潜力巨大**:Densing Law(算法效率)与摩尔定律(硬件算力)结合,使得固定价格硬件上可运行的最大有效参数规模约每88天翻一番,预示高性能LLM将加速在消费级终端普及 [24] - **推论4:ChatGPT发布后密度增长加速**:ChatGPT发布后,模型密度的增长速度提升了50%(斜率从0.0048增至0.0073),主要因投资激增、开源生态繁荣及小模型普及 [25][28] - **API价格暴跌案例**:从2022年12月到2024年8月,性能相当的模型API价格从每百万token 20美元降至0.075美元,降幅达266.7倍 [27] 对模型压缩技术的警示 - 实验发现,大多数压缩模型(通过剪枝、蒸馏、量化)的能力密度实际上低于其原始模型 [30] - 原因在于压缩后的小模型往往面临训练不足的问题,而量化则会损害模型性能 [30] - 行业建议,高效压缩需确保压缩后的模型经过充分训练,以在减小规模的同时保持或提升能力密度 [30] 未来发展方向:密度最优训练 - 未来训练范式将从追求参数规模的“大”,转向追求单位参数效率的“密”,即“密度最优训练” [32] - 提升密度的关键路径包括:1) 探索更高效的非标准Transformer架构;2) 采用复杂的数据预处理与合成技术提升数据质量;3) 构建大模型与小模型协同进化的生态系统 [33][34][35] 核心技术细节与评估挑战 - 有效参数的计算采用两步估计法:首先用Scaling Law拟合参数量与预训练损失的关系,再用Sigmoid函数拟合损失与下游任务性能的关系 [37][40][45] - 为统一衡量不同架构,密度定义可扩展为参考模型与目标模型推理成本的比值,并针对稠密模型、MoE模型和量化模型给出了具体计算公式 [45][46][47] - 当前能力密度评估是一种相对测量,其准确性高度依赖于评测基准的质量,行业需要建立更全面、无偏见的评估体系 [31][38]
Kimi开源新线性注意力架构,人工智能AIETF(515070)持仓股三六零盘中涨超7%
每日经济新闻· 2025-11-03 02:54
市场表现 - A股三大指数低开且跌幅扩大,创业板指跌幅扩大至1% [1] - 人工智能AIETF(515070)下跌1.53% [1] - 其持仓股表现分化,三七互娱涨停,三六零盘中上涨7.1%,而石头科技下跌5.2%,澜起科技下跌4.98%,恒玄科技下跌3.77%,浪潮信息下跌3.51% [1] 行业板块动态 - 海南、游戏、光热发电、影视院线等板块涨幅居前 [1] - 贵金属、芬太尼、电池等板块跌幅居前 [1] AI技术进展 - 月之暗面开源混合线性注意力架构Kimi Linear,其核心创新为"Kimi Delta Attention",是对Gated DeltaNet的优化升级 [1] - 该架构在短上下文、长上下文、强化学习扩展机制等各种场景中超越了Transformer架构的全注意力机制 [1] - 在处理1M token场景下,Kimi Linear的KV cache占用量减少75%,解码吞吐量最高提升6倍,TPOT训练速度相较于传统MLA实现6.3倍加速 [1] AI行业发展趋势 - AI大模型发展重心正从参数规模竞赛转向追求更高的"能力密度"和更优的架构效率 [2] - 未来竞争力将更取决于如何在更小参数规模下实现更强性能,受脑科学启发的算法创新以及多模态与推理能力的深度融合成为关键 [2] - 这一转变有望降低算力门槛,使广大中小企业能以更低成本接入AI技术,从而催生更广泛的产业应用和投资机会 [2] AIETF产品信息 - 人工智能AIETF(515070)跟踪CS人工智能主题指数(930713),成分股选取为人工智能提供技术、基础资源以及应用端的个股 [2] - 该ETF聚集人工智能产业链上中游,前十大权重股包括中际旭创、新易盛、寒武纪-U、中科曙光、科大讯飞等国内科技龙头 [2]