从「密度法则」来看Scaling Law撞墙、模型密度的上限、豆包手机之后端侧想象力......|DeepTalk回顾
锦秋集·2025-12-15 04:09

文章核心观点 - 大模型的发展正从依赖规模扩张的“规模法则”转向追求效率提升的“密度法则” [2][3] - “密度法则”指出,模型能力密度每3.5个月翻一倍,使得实现相同智能水平所需的参数量和成本呈指数级下降 [11][28] - 行业未来的核心竞争力将从规模竞赛转向效率与智能密度竞赛,为端侧智能的普惠化奠定基础 [11][59] Scaling Law的可持续性问题 - 规模法则在数据和算力上面临可持续发展瓶颈,并非完全失效,而是“撞墙了” [2][15] - 训练数据瓶颈:核心训练数据依赖互联网公开语料,其规模增长已放缓,基本停留在20T Token左右,难以继续扩展 [15] - 计算资源瓶颈:模型规模指数级增长需要不可持续的计算资源,例如LLaMA 3 405B模型训练使用了1.6万块H100 GPU [16] 密度法则的提出与定义 - 灵感来源于信息时代的摩尔定律,智能时代需要关注“知识压缩效率”与“智能密度” [3][20] - 观察到行业趋势:用越来越少的参数实现相同的智能水平,例如2020年GPT-3需千亿参数,2023年初MiniCPM仅用2.4B参数达到相似能力 [23] - 定义了模型的“相对能力密度” = 同能力基准模型的参数量 / 目标模型参数量,以此量化模型的知识压缩效率 [24][25] 密度法则的核心推论 - 推论1:实现特定AI水平的模型参数量呈指数级下降,每3.5个月下降一半 [32] - 推论2:模型推理开销随时间呈指数级下降,例如GPT-3.5推理百万Token成本约20美元,相同能力的Gemini 1.5 Flash仅需0.075美元 [36][38] - 推论3:自ChatGPT发布后,大模型能力密度的增长速度明显加快 [42] - 推论4:模型小型化带来巨大的端侧智能潜力,未来3-5年端侧芯片预计可运行10B-60B参数规模的模型 [45] 构建超高能力密度模型的制备体系 - 架构高效:趋势从“大模型”迈向“长模型”与“全稀疏架构”,包括前馈网络和自注意力机制的稀疏化,以处理长序列和复杂思考 [53] - 计算高效:坚持软硬协同优化,包括自研训练框架、投机采样、量化技术等,例如全阵敏感4比特量化能在保持99%性能下将存储压缩至Int4 [54][56] - 数据高效:预训练阶段核心是提升数据质量与清洗;后训练阶段关键在于通过人机协同合成高质量数据 [55][57] - 学习高效:构建“模型能力风洞”,通过训练小规模模型验证数据配比、超参等,以科学化调度降低大模型训练的试错成本 [58][67] 行业现状与头部厂商动态 - OpenAI通过推出“Mini”或“Flash”版本,积极将旗舰模型能力压缩至小模型,以降低推理成本 [71] - Google在架构层面进行探索,例如在Diffusion Model中展示非自回归快速生成能力,并应用高效的注意力机制 [71][72] - 预训练数据的核心瓶颈是互联网语料质量低;后训练的关键瓶颈是高质量Query和稳定运行环境的稀缺 [68][69] 未来技术趋势展望 - 明年技术主线将集中在Agent领域,其能力提升的核心驱动力依然是数据积累 [73] - 高质量的后训练数据和稳定的运行环境将成为决定各家模型能力上限的关键因素 [69][73] - 端侧智能预计在2026年迎来重要转折点,驱动力包括普惠化需求、隐私保护以及端侧芯片算力与模型能力密度的协同提升 [75][76][77] - 端侧多模态的发展方向包括高清高刷体验的优化,以及流式全模态处理能力 [78] 模型评价与行业发展 - 现有大模型“排行榜”因容易导致模型过拟合而有效性受到质疑 [82] - 未来需要发展内部私有评测体系,并构建动态、前瞻性的评测集,以引导模型向更通用的方向发展 [84][86] - 长期需关注对模型自主学习能力的评测 [85]