大模型每百天性能翻倍,清华团队“密度法则”登上Nature子刊
36氪·2025-11-20 08:48

大模型发展路径的转变 - 2020年以来大模型发展遵循Scaling Law,即模型参数和训练数据规模越大,智能能力越强 [1] - 进入2025年,依赖规模扩张的路径面临可持续发展问题,互联网公开可获取语料接近枯竭 [1] - OpenAI前首席科学家指出,现有的大模型预训练模式将无法持续,研究者开始探索新的发展路径 [1] 密度法则的核心内容 - 清华大学在Nature子刊提出大模型“密度法则”,揭示大语言模型的最大能力密度随时间呈指数级增长 [1][8] - 2023年2月至2025年4月,能力密度约每3.5个月翻一倍,意味着可用一半参数量的模型实现当前最优性能 [1][8] - 密度法则受摩尔定律启发,类比芯片行业通过提升电路密度实现设备小型化,大模型通过提升能力密度实现高效化发展 [3] 密度法则的重要推论 - 推论1:同能力模型的推理开销随时间指数级下降,模型参数每3.5个月减半,同时芯片算力增强和算法优化推动成本下降 [7] - GPT-3.5级模型API价格在20个月内下降266.7倍,约每2.5个月下降一倍 [7] - 推论2:大模型能力密度正在加速增强,ChatGPT发布前能力密度每4.8个月翻倍,发布后提升至每3.2个月翻倍,速度提升50% [9][10] 模型压缩技术的局限性 - 当前模型压缩技术存在局限性,对比多个模型与其压缩版本,除Gemma-2-9B外,其他压缩模型的密度均低于原始模型 [11] - 量化技术同样会降低模型性能和能力密度,揭示压缩过程中较小模型的训练往往不够充分,无法达到最优密度 [11][13] 端侧智能的发展前景 - 芯片电路密度和模型能力密度两条曲线的交汇,意味着端侧设备将能运行更高性能的大模型 [14] - 边缘计算和终端智能将迎来爆发式增长,算力普惠将从云端走向终端 [14] - 清华大学与面壁智能基于密度法则研发端侧高密度模型,截至2025年10月模型下载量接近1500万次,GitHub星标接近3万次 [16]