大模型密度法则
搜索文档
大模型每百天性能翻倍,清华团队“密度法则”登上Nature子刊
36氪· 2025-11-20 08:48
大模型发展路径的转变 - 2020年以来大模型发展遵循Scaling Law,即模型参数和训练数据规模越大,智能能力越强 [1] - 进入2025年,依赖规模扩张的路径面临可持续发展问题,互联网公开可获取语料接近枯竭 [1] - OpenAI前首席科学家指出,现有的大模型预训练模式将无法持续,研究者开始探索新的发展路径 [1] 密度法则的核心内容 - 清华大学在Nature子刊提出大模型“密度法则”,揭示大语言模型的最大能力密度随时间呈指数级增长 [1][8] - 2023年2月至2025年4月,能力密度约每3.5个月翻一倍,意味着可用一半参数量的模型实现当前最优性能 [1][8] - 密度法则受摩尔定律启发,类比芯片行业通过提升电路密度实现设备小型化,大模型通过提升能力密度实现高效化发展 [3] 密度法则的重要推论 - 推论1:同能力模型的推理开销随时间指数级下降,模型参数每3.5个月减半,同时芯片算力增强和算法优化推动成本下降 [7] - GPT-3.5级模型API价格在20个月内下降266.7倍,约每2.5个月下降一倍 [7] - 推论2:大模型能力密度正在加速增强,ChatGPT发布前能力密度每4.8个月翻倍,发布后提升至每3.2个月翻倍,速度提升50% [9][10] 模型压缩技术的局限性 - 当前模型压缩技术存在局限性,对比多个模型与其压缩版本,除Gemma-2-9B外,其他压缩模型的密度均低于原始模型 [11] - 量化技术同样会降低模型性能和能力密度,揭示压缩过程中较小模型的训练往往不够充分,无法达到最优密度 [11][13] 端侧智能的发展前景 - 芯片电路密度和模型能力密度两条曲线的交汇,意味着端侧设备将能运行更高性能的大模型 [14] - 边缘计算和终端智能将迎来爆发式增长,算力普惠将从云端走向终端 [14] - 清华大学与面壁智能基于密度法则研发端侧高密度模型,截至2025年10月模型下载量接近1500万次,GitHub星标接近3万次 [16]
大模型每百天性能翻倍!清华团队“密度法则”登上 Nature 子刊
AI前线· 2025-11-20 06:30
大模型发展范式转变 - 传统Scaling Law面临可持续性问题,互联网公开可获取语料接近枯竭,大模型预训练路径难以为继 [1] - 行业从单纯追求模型参数规模转向探索新的发展路径 [1] 密度法则核心观点 - 清华大学提出大模型"密度法则",揭示大语言模型最大能力密度随时间呈指数级增长 [1][4] - 2023年2月至2025年4月期间,能力密度约每3.5个月翻一倍,可用一半参数量的模型实现当前最优性能 [1][9] - 密度法则受摩尔定律启发,类比芯片行业通过提升电路密度实现设备小型化,大模型通过提升能力密度实现高效化发展 [4][5] 密度法则实证研究 - 研究基于51个近年发布的开源大模型进行系统分析 [9] - 能力密度定义为同能力基准模型参数量与目标模型参数量的比值 [7] 密度法则重要推论 - 同能力模型的推理开销随时间指数级下降,GPT-3.5级模型API价格在20个月内下降266.7倍,约每2.5个月下降一倍 [12] - 大模型能力密度加速增强,ChatGPT发布前能力密度每4.8个月翻倍,发布后每3.2个月翻倍,速度提升50% [14] - 当前模型压缩技术存在局限性,多数压缩模型密度低于原始模型,量化技术会降低模型性能和能力密度 [16] - 芯片电路密度和模型能力密度曲线交汇,预示端侧设备将能运行更高性能大模型,边缘计算和终端智能将爆发式增长 [18] 密度法则实践应用 - 清华大学与面壁智能团队基于密度法则研发高密度端侧模型,包括MiniCPM系列 [20] - 面壁小钢炮模型被评为2024年Hugging Face最多下载、最受欢迎的中国大模型,截至2025年10月下载量接近1500万次,GitHub星标接近3万次 [20]