Physics of Language Models

搜索文档
Z Tech|独家解读Meta朱泽园开源新基线,用10%算力跑赢Llama3-8B,科学方法引领新范式,语言模型物理学迈入新时代
Z Potentials· 2025-08-02 02:19
物理学式的 AI 科学革命 - 顶尖大模型仍会在简单推理和常识问题上犯错 引发对算法极限和训练范式的质疑 [1] - Meta FAIR研究院朱泽园发起《Physics of Language Models》项目 旨在用物理学范式研究AI 其背景包括LoRA技术合作者 优化算法发明者等 [1] 用物理学方法追寻智能的普适规律 - 主张AI研究应像物理学一样追求可复现 可归纳 可解释的普适规律 类似牛顿和开普勒的观测归纳方法 [6] - 需建立"理想实验田" 为后续模型设计奠定理论基础 [6] 开源理论走向实证 算力门槛降低 - 首次将理论体系落地到实际大模型 使用42,000 GPU小时(不到Llama3-8B的10%)训练出超越同量级开源模型和Llama3-8B的模型 [11] - 全链路开源数据 代码 权重和实验 确保可复现性 [11] 两大关键策略:理论+实践深度结合 策略一:多样重写+QA混合预训练 - 2023年论文揭示知识提取极限 预训练阶段需引入多样化重写和QA混合数据 该理论已被Nvidia团队实现为Nemotron-CC开源数据 [13] 策略二:Canon层横向信息流革命 - Canon层通过横向残差连接提升Transformer推理深度2-4倍 增强推理广度和结构学习能力 成本极低且易集成主流架构 [14][16] - 实验显示Canon层使线性注意力(GLA)达到Mamba2水平 横向连接优于专用SSM设计 [17] 开创性工作意义 - 定义"理想实验田":用合成数据拆解智能 放大不同架构极限差异 [18] - 建立客观评测范式:极小实验体量揭示大模型架构未来 节省行业算力 [18] - 全开源成果:数据 代码 权重和实验曲线详实对比 确保重现性 [18] 科学价值与行业影响 - 以物理学客观性推动AI从"刷榜"进入可验证 可解释 可积累的科学新阶段 [19] - 合成预训练实验揭示大模型结构极限 可能成为领域发展的分水岭 [17][19]
挖人上瘾的Meta又被员工吐嘈:不帮忙宣传项目,开源只会越来越糟
机器之心· 2025-08-01 01:30
Meta AI战略与资源投入 - 公司CEO马克・扎克伯格公开信提出「AI系统自我改进」概念并强调「谨慎选择开源内容」[1] - 为追赶AI顶级研究阵地,公司投入逾140亿美元重注Scale AI并组建Meta Superintelligence Labs (MSL),以百万至上亿美元签约金吸引OpenAI、DeepMind等团队人才[2] 内部管理问题与组织文化 - 研究科学家朱泽园披露内部审批流程低效:申请官方账号转发研究项目耗时近一年,且触达量不足个人推文10%[5] - 前员工Tijmen Blankevoort公开批评内部文化失调现象,朱泽园证实该批评「基本属实」并暗示存在更严重未披露问题[9] - 内部资源分配矛盾突出:Physics of Language Models项目未获公司层面支持,研究者需自行争取GPU资源[18][20] 开源策略争议与研究成果 - 朱泽园发布Physics of Language Models第一阶段代码,包含42k GPU小时预训练的8B基础模型全量数据与权重,仅用10%训练资源即超越Llama3-8B[11] - 开源效果引发质疑:项目关注度低迷使研究者反思「完全开源的必要性」,行业意见两极分化(Hugging Face CEO支持开源 vs 部分从业者认为特定场景下开源效率低)[12][14][16] - 公司开源政策存在矛盾:虽公开宣称减少开源,但同期批准Physics of Language Models、MetaCLIP2、VGGT等项目以Apache 2.0协议发布[21] 研究推广机制缺陷 - FAIR研究团队缺乏统一成果推广体系,依赖研究者个人社交账号宣传且未提供X Premium+等推广支持[18] - 法务流程严重拖累研究效率:公共数据集使用批准耗时超两月,模型权重发布需与法务部门反复沟通,协议审批耗时超一周[20] 行业人才动态 - AI从业者普遍存在职业焦虑,朱泽园建议主动把握跳槽时机,并透露自身离职意向(暂因项目优先级延迟)[8] - 公司外部对Meta边缘化研究项目的兴趣高于内部,暗示人才流失风险[6][8]