密度法则
搜索文档
2025,中国大模型不信“大力出奇迹”?
36氪· 2025-12-19 11:06
2025年12月,在腾讯科技HiTechDay上,以《模型再进化:2025,智能重新定义世界》为主题的圆桌论坛,正是围绕大模型进化的深度、维度、效率三条 线索展开。 华中师范大学人工智能教育学部助理教授熊宇轩为嘉宾主持,三位嘉宾北京智源人工智能研究院院长王仲远、面壁智能联合创始人、首席科学家刘知远、 峰瑞资本投资合伙人陈石分别从各自的领域,解读2025对于大模型进化的深入观察。 王仲远指出,大模型的进化正在经历"从Learning from Text到Learning from Video"的质变。视频数据中蕴含了丰富的时空信息与动态交互线索,为模型学 习物理世界动态演变规律提供了关键的数据来源,同时也是当前最容易规模化获取的一类多模态数据,是AI"从数字世界迈向物理世界"的关键桥梁,也为 具身智能(Embodied AI)的爆发提供了构建"世界模型"的底座。 刘知远提出的"密度法则"(Densing Law)认为,如同芯片摩尔定律,AI的未来在于不断提升单位参数内的"智能密度"。他大胆预言,未来的算力格局将 是"云端负责规划,端侧负责做事(执行)",到2030年,我们甚至有望在端侧设备上承载GPT-5级别的 ...
对谈刘知远、肖朝军:密度法则、RL 的 Scaling Law 与智能的分布式未来丨晚点播客
晚点LatePost· 2025-12-12 03:09
文章核心观点 - 大模型的发展存在“规模法则”和“密度法则”两条主线,前者追求能力跃迁,后者追求效率提升,即单位算力/参数下智能的最大化 [12][13][18] - 行业正从盲目追求模型规模转向追求能力密度,效率提升将加速端侧智能(如手机、汽车)和分布式智能的发展,最终实现每个人的“专属大模型” [9][10][35] - 强化学习尚未出现清晰的Scaling Law,是当前主要瓶颈,未来的关键方向是自主学习(Self-Learning)和“AI造AI” [24][34][36] 大模型演进的明线与暗线 - **明线:规模法则 (Scaling Law)**:自2018年预训练模型出现后,每隔几年模型能力就会跳跃一次,模型正变得更通用,甚至开始接近或超越人类在某些领域的能力 [12] - **暗线:密度法则 (Densing Law)**:这是大模型时代的“摩尔定律”,关注如何用更少的计算和数据资源更高效地获得智能,核心是追求单位计算带来的智能最大化 [13][14][18] - **密度法则的量化表现**:根据研究,大模型的能力密度(衡量单位参数/算力下模型能力的指标)每3.5个月翻一倍,自2023年1月ChatGPT出现后,这一速度在加快 [4][7] 提升模型能力密度的具体方法 - **模型架构优化**:核心方向包括采用稀疏化的混合专家系统以降低算力消耗,以及对注意力机制进行各种效率改进以应对长文本和Agent任务的需求 [19][20] - **数据治理与合成**:通过高质量的数据清洗、精选和合成,可以大幅提升训练效率,例如将预训练数据集精炼至不到原始容量的1/10,效果反而更好 [22][23] - **学习算法演进**:当前重点转向强化学习,但其尚未出现清晰的Scaling Law,主要瓶颈在于难以构建可扩展的环境和可验证的激励 [24][25] - **软硬一体协同优化**:结合芯片制程进步(摩尔定律)与模型能力密度提升,共同推动端侧设备承载以往只能在云端运行的大模型能力 [30][31] 强化学习的现状与未来探索方向 - **当前瓶颈**:强化学习缺乏像预训练那样清晰的Scaling Law,大多数训练仅几千步,如何持续稳定训练并构建“不可破解”的学习环境是核心挑战 [24][25] - **两条探索路径**:一是继续扩大RL的规模,探索开放域的激励定义;二是寻找更高效的新学习方式,提高样本效率,让模型能像人一样通过少量反馈学习新任务 [26][27] - **RL的已验证能力**:只要有足够数据和反馈,强化学习已能在数学、代码等特定任务上达到人类前0.1%甚至0.01%的水平,预示了打造垂直领域“超级专家模型”的潜力 [25] 端侧智能与分布式智能的未来 - **端侧算力规模**:2023年全国端侧算力(主要是手机)是数据中心算力的12倍,信息化本质是分布式算力和信息的结构,智能化也将遵循这一路径 [9][35] - **端侧部署时间表**:结合密度法则提升和芯片路线图,预测到2030年左右,端侧可部署600亿以上参数的模型,5年内端侧很可能承载GPT-4至GPT-5能力的模型 [32] - **具体应用进展**:车端模型量产速度非常快,已与多家车企合作;预计2027年成为关键节点,届时手机可实现大规模强化学习,支持个人数据训练“专属大模型助理” [32][33] - **未来形态**:智能将分布式存在,形成“智能体的互联网”,个人拥有基于终端数据持续成长的“个人大模型”,云端则存在各垂直领域的“专家大模型” [10][35][36] 下一阶段的范式演进:自主学习与AI造AI - **核心方向**:预训练和强化学习之后,下一个大的方法改进是自主学习,即模型能作为一个高效的学习者,根据用户需求在终端上持续学习新技能 [34] - **发展三阶段**:第一阶段是实现自主学习;第二阶段是具备自主学习能力的AI之间的协作;第三阶段是具备创造新符号关系乃至新符号系统的创新能力 [34][35] - **AGI的雏形**:最早的AGI形态可能不是面向消费者的产品,而是面向生产的系统,具备“AI造AI”的能力,即能自主完成数据生产、环境构建、模型训练和部署的全流程 [36]
从ChatGPT3年8亿周活到Higgsfield5个月1亿美元ARR:学术和资本看见了“大模型的摩尔定律 ”|DeepTalk
锦秋集· 2025-12-01 10:00
从Scaling Law到Densing Law:大模型发展范式的转变 - 行业观点认为,单纯扩大模型参数和数据的“Scaling Law”正面临瓶颈,数据接近极限,模型规模的百倍扩张难以带来真正的能力跃迁 [2] - 研究提出新的发展范式,即从“做大模型”转向“做高效模型”,核心是提升“能力密度” [3] - 该观点基于对51个主流开源大语言模型演进轨迹的分析,发现最大能力密度呈指数提升,约每3.5个月翻一番 [3] 能力密度(Capability Density)的定义与计算 - 为定量评估不同规模与架构模型的质量,研究引入了“有效参数大小”的概念,即一个标准参考模型达到目标模型同等性能所需的参数量 [10][11][12] - 能力密度被定义为有效参数大小与实际参数大小的比值(ρ = N(S_M) / N_M),该指标可用于公平比较不同架构和精度的模型 [13] - 若ρ > 1,表明模型比参考模型更“致密”,即用更少的参数实现了更强的能力 [15] Densing Law的核心发现与驱动力 - 对51个主流开源基础模型的评估显示,大语言模型的最大能力密度随时间呈指数级增长,规律被命名为Densing Law [16][17] - 具体数据为:ln(ρ_max) = At + B,增长系数A≈0.007/天,最大能力密度约每3.5个月(105天)翻一番 [18] - 密度提升的核心驱动力是预训练数据规模的爆炸式增长(从T级到15T+)以及数据质量的显著提升 [19] - 研究指出,超大模型(如Llama-3.1-405B)受限于巨大的训练成本,往往训练不足,导致其“性价比”或密度略低于同期的中等规模模型 [19] Densing Law的主要推论与行业影响 - **推论1:参数量指数级减少**:为实现相同性能,模型所需实际参数量随时间呈指数下降,大约每3.5个月减半 [21] - **推论2:推理成本指数级降低**:在同等性能下,模型参数减少直接降低了推理计算成本,粗略计算推理成本约每2.6个月减半 [22][27] - **推论3:端侧智能潜力巨大**:Densing Law(算法效率)与摩尔定律(硬件算力)结合,使得固定价格硬件上可运行的最大有效参数规模约每88天翻一番,预示高性能LLM将加速在消费级终端普及 [24] - **推论4:ChatGPT发布后密度增长加速**:ChatGPT发布后,模型密度的增长速度提升了50%(斜率从0.0048增至0.0073),主要因投资激增、开源生态繁荣及小模型普及 [25][28] - **API价格暴跌案例**:从2022年12月到2024年8月,性能相当的模型API价格从每百万token 20美元降至0.075美元,降幅达266.7倍 [27] 对模型压缩技术的警示 - 实验发现,大多数压缩模型(通过剪枝、蒸馏、量化)的能力密度实际上低于其原始模型 [30] - 原因在于压缩后的小模型往往面临训练不足的问题,而量化则会损害模型性能 [30] - 行业建议,高效压缩需确保压缩后的模型经过充分训练,以在减小规模的同时保持或提升能力密度 [30] 未来发展方向:密度最优训练 - 未来训练范式将从追求参数规模的“大”,转向追求单位参数效率的“密”,即“密度最优训练” [32] - 提升密度的关键路径包括:1) 探索更高效的非标准Transformer架构;2) 采用复杂的数据预处理与合成技术提升数据质量;3) 构建大模型与小模型协同进化的生态系统 [33][34][35] 核心技术细节与评估挑战 - 有效参数的计算采用两步估计法:首先用Scaling Law拟合参数量与预训练损失的关系,再用Sigmoid函数拟合损失与下游任务性能的关系 [37][40][45] - 为统一衡量不同架构,密度定义可扩展为参考模型与目标模型推理成本的比值,并针对稠密模型、MoE模型和量化模型给出了具体计算公式 [45][46][47] - 当前能力密度评估是一种相对测量,其准确性高度依赖于评测基准的质量,行业需要建立更全面、无偏见的评估体系 [31][38]
大模型不再拼“块头”——大语言模型最大能力密度随时间呈指数级增长
科技日报· 2025-11-25 00:13
文章核心观点 - 清华大学研究团队提出大模型“密度法则”,用以衡量AI大模型的智力能力水平,该法则揭示最大能力密度随时间呈指数级增长 [1] - 能力密度的提升意味着可用更少参数实现相同智能水平,推动大模型向高效化、普惠化发展 [1][2] - 密度法则与摩尔定律类似,为学术界和工业界的技术创新提供科学指引,促进AI应用更广泛地部署于终端设备 [3] 密度法则的定义与内涵 - 能力密度是衡量大模型每一单位参数所包含智慧水平的指标,类似于评价芯片的电路密度 [1] - 研究核心假设为采用相同制造工艺和充分训练的不同尺寸模型,其能力密度相同 [1] - 行业评价重心从模型的“块头”(参数量)转向“能力密度”,关注其高效发展规律 [2] 密度法则的量化规律 - 对51个开源大模型的系统分析显示,最大能力密度从2023年2月至2025年4月约每3.5个月翻一倍 [1][2] - 同能力模型的推理开销随时间呈指数级下降 [2] - 能力密度提升速度在ChatGPT发布后加速,从每4.8个月翻倍提升至每3.2个月翻倍,增速提升50% [2] 对行业发展的影响 - 能力密度提升使运行大模型所需算力减少,成本降低 [3] - 结合芯片电路密度(摩尔定律)与模型能力密度提升,大模型未来可部署于终端芯片 [3] - 终端部署在响应速度和用户隐私方面具备先天优势,驱动智能座舱从“被动响应”走向“主动服务” [3]