Workflow
合成自举预训练(Synthetic Bootstrapped Pretraining
icon
搜索文档
庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境
机器之心· 2025-09-23 04:08
核心观点 - 苹果基础模型团队负责人庞若鸣离职加入Meta 扎克伯格豪掷两亿美元招揽其加入超级智能团队[1] - 庞若鸣在苹果期间领导开发Apple Intelligence及AI功能核心基础模型 其工作具有高影响力和研究价值[3] - 高质量文本数据迅速枯竭 行业面临"规模壁垒" 需重新思考如何高效利用现有数据[4] - 提出Synthetic Bootstrapped Pretraining(SBP)方法 通过合成数据捕捉跨文档相关性 提升模型性能[5][6][7] 技术方法 - SBP分为三步流程:最近邻配对识别语义相似文档对 训练合成器模型生成相关内容 扩展合成创建大型语料库[7] - 使用Qwen3-Embedding-0.6B模型编码文档为1024维向量 采用ScaNN结合8-bit量化进行近似最近邻搜索[7] - 设置相似度阈值0.75筛选文档对 基于13-token滑动窗口检查重叠 移除近似重复文档[8] - 合成器与主模型使用相同Transformer架构 从预训练检查点初始化 学习条件概率p(d2|d1)[9] - 通过温度采样生成新文档 温度参数1.0 top_p参数0.9 过滤内部重复文档确保质量[10] 实验设计 - 基于Llama 3架构的3B参数Transformer模型 在5.82亿文档和4820亿token的DCLM数据集定制版本上训练[14] - 比较200B-token和1T-token训练规模下SBP与基线及Oracle模型性能差异[18] 性能表现 - SBP在200B规模实现Oracle模型42%性能增益 在1T规模实现49%性能增益[18] - Open Web Text2困惑度从5.74降低0.53 LAMBADA困惑度从6.87降低0.85[19] - ARC-Challenge零样本准确率提升1.28个百分点至35.32% ARC-Easy零样本准确率提升2.65个百分点至68.94%[19] - Winogrande零样本准确率提升1.90个百分点至60.14% TriviaQA单样本准确率提升3.36个百分点至22.51%[19] - WebQS单样本准确率提升3.74个百分点至8.56% MMLU五样本准确率提升1.26个百分点至60.48%[19] - 平均问答准确率提升2.17个百分点至49.49% 相当于Oracle模型47%的性能提升[19] 数据质量 - 合成数据重复率在200B规模为4.3% 在1T规模降至3.9% 接近真实数据1.8%的水平[24] - 重复文档检测率在200B和1T规模均为0.8% 与真实数据0.7%相当[24] - 非事实内容比例从200B规模的15.1%降至1T规模的8.7%[24] - 配对不相关比例从200B规模的25.6%显著降至1T规模的7.8%[24] 行业意义 - 解决大型语言模型可持续发展根本挑战 从获取更多数据转向提取现有数据更多价值[24] - 提供数据效率提升 延长现有数据集有效寿命 实现自我改进无需外部教师模型[27] - 贝叶斯解释表明实现概念级学习 超越表面级token模式 与模型规模扩展形成互补效益[27]