大模型密度法则 - 财报，业绩电话会，研报，新闻

大模型密度法则

搜索文档

36氪· 2025-11-20 08:48

大模型发展路径的转变 - 2020年以来大模型发展遵循Scaling Law，即模型参数和训练数据规模越大，智能能力越强 [1] - 进入2025年，依赖规模扩张的路径面临可持续发展问题，互联网公开可获取语料接近枯竭 [1] - OpenAI前首席科学家指出，现有的大模型预训练模式将无法持续，研究者开始探索新的发展路径 [1] 密度法则的核心内容 - 清华大学在Nature子刊提出大模型“密度法则”，揭示大语言模型的最大能力密度随时间呈指数级增长 [1][8] - 2023年2月至2025年4月，能力密度约每3.5个月翻一倍，意味着可用一半参数量的模型实现当前最优性能 [1][8] - 密度法则受摩尔定律启发，类比芯片行业通过提升电路密度实现设备小型化，大模型通过提升能力密度实现高效化发展 [3] 密度法则的重要推论 - 推论1：同能力模型的推理开销随时间指数级下降，模型参数每3.5个月减半，同时芯片算力增强和算法优化推动成本下降 [7] - GPT-3.5级模型API价格在20个月内下降266.7倍，约每2.5个月下降一倍 [7] - 推论2：大模型能力密度正在加速增强，ChatGPT发布前能力密度每4.8个月翻倍，发布后提升至每3.2个月翻倍，速度提升50% [9][10] 模型压缩技术的局限性 - 当前模型压缩技术存在局限性，对比多个模型与其压缩版本，除Gemma-2-9B外，其他压缩模型的密度均低于原始模型 [11] - 量化技术同样会降低模型性能和能力密度，揭示压缩过程中较小模型的训练往往不够充分，无法达到最优密度 [11][13] 端侧智能的发展前景 - 芯片电路密度和模型能力密度两条曲线的交汇，意味着端侧设备将能运行更高性能的大模型 [14] - 边缘计算和终端智能将迎来爆发式增长，算力普惠将从云端走向终端 [14] - 清华大学与面壁智能基于密度法则研发端侧高密度模型，截至2025年10月模型下载量接近1500万次，GitHub星标接近3万次 [16]

大模型密度法则

摩尔定律

Artificial Intelligence

Artificial Intelligence

面壁小钢炮MiniCPM

MiniCPM - V/o

VoxCPM

大模型每百天性能翻倍！清华团队“密度法则”登上 Nature 子刊

AI前线· 2025-11-20 06:30

大模型发展范式转变 - 传统Scaling Law面临可持续性问题，互联网公开可获取语料接近枯竭，大模型预训练路径难以为继 [1] - 行业从单纯追求模型参数规模转向探索新的发展路径 [1] 密度法则核心观点 - 清华大学提出大模型"密度法则"，揭示大语言模型最大能力密度随时间呈指数级增长 [1][4] - 2023年2月至2025年4月期间，能力密度约每3.5个月翻一倍，可用一半参数量的模型实现当前最优性能 [1][9] - 密度法则受摩尔定律启发，类比芯片行业通过提升电路密度实现设备小型化，大模型通过提升能力密度实现高效化发展 [4][5] 密度法则实证研究 - 研究基于51个近年发布的开源大模型进行系统分析 [9] - 能力密度定义为同能力基准模型参数量与目标模型参数量的比值 [7] 密度法则重要推论 - 同能力模型的推理开销随时间指数级下降，GPT-3.5级模型API价格在20个月内下降266.7倍，约每2.5个月下降一倍 [12] - 大模型能力密度加速增强，ChatGPT发布前能力密度每4.8个月翻倍，发布后每3.2个月翻倍，速度提升50% [14] - 当前模型压缩技术存在局限性，多数压缩模型密度低于原始模型，量化技术会降低模型性能和能力密度 [16] - 芯片电路密度和模型能力密度曲线交汇，预示端侧设备将能运行更高性能大模型，边缘计算和终端智能将爆发式增长 [18] 密度法则实践应用 - 清华大学与面壁智能团队基于密度法则研发高密度端侧模型，包括MiniCPM系列 [20] - 面壁小钢炮模型被评为2024年Hugging Face最多下载、最受欢迎的中国大模型，截至2025年10月下载量接近1500万次，GitHub星标接近3万次 [20]

大模型密度法则

摩尔定律

Artificial Intelligence

Artificial Intelligence

面壁小钢炮MiniCPM

MiniCPM - V/o

VoxCPM