Workflow
Z Tech|独家解读Meta朱泽园开源新基线,用10%算力跑赢Llama3-8B,科学方法引领新范式,语言模型物理学迈入新时代

物理学式的 AI 科学革命 - 顶尖大模型仍会在简单推理和常识问题上犯错 引发对算法极限和训练范式的质疑 [1] - Meta FAIR研究院朱泽园发起《Physics of Language Models》项目 旨在用物理学范式研究AI 其背景包括LoRA技术合作者 优化算法发明者等 [1] 用物理学方法追寻智能的普适规律 - 主张AI研究应像物理学一样追求可复现 可归纳 可解释的普适规律 类似牛顿和开普勒的观测归纳方法 [6] - 需建立"理想实验田" 为后续模型设计奠定理论基础 [6] 开源理论走向实证 算力门槛降低 - 首次将理论体系落地到实际大模型 使用42,000 GPU小时(不到Llama3-8B的10%)训练出超越同量级开源模型和Llama3-8B的模型 [11] - 全链路开源数据 代码 权重和实验 确保可复现性 [11] 两大关键策略:理论+实践深度结合 策略一:多样重写+QA混合预训练 - 2023年论文揭示知识提取极限 预训练阶段需引入多样化重写和QA混合数据 该理论已被Nvidia团队实现为Nemotron-CC开源数据 [13] 策略二:Canon层横向信息流革命 - Canon层通过横向残差连接提升Transformer推理深度2-4倍 增强推理广度和结构学习能力 成本极低且易集成主流架构 [14][16] - 实验显示Canon层使线性注意力(GLA)达到Mamba2水平 横向连接优于专用SSM设计 [17] 开创性工作意义 - 定义"理想实验田":用合成数据拆解智能 放大不同架构极限差异 [18] - 建立客观评测范式:极小实验体量揭示大模型架构未来 节省行业算力 [18] - 全开源成果:数据 代码 权重和实验曲线详实对比 确保重现性 [18] 科学价值与行业影响 - 以物理学客观性推动AI从"刷榜"进入可验证 可解释 可积累的科学新阶段 [19] - 合成预训练实验揭示大模型结构极限 可能成为领域发展的分水岭 [17][19]