Workflow
AttentionInfluence
icon
搜索文档
字节最新大模型秘籍:只挑能有推理潜力的数据训练!1.3B模型无需标签自动挑选
量子位· 2025-05-15 06:26
核心观点 - 字节Seed团队提出AttentionInfluence方法,利用预训练语言模型中的注意力机制选择高质量训练数据,无需人工标注或额外训练 [1][2] - 该方法通过屏蔽重要注意力头创建"弱"模型,计算损失差异来评估数据对推理能力的影响,筛选出高推理强度的样本 [6][13] - 实验显示使用该方法选择的数据训练7B模型,在MMLU、GSM8K等基准测试中性能提升1.4-3.5个百分点 [8][27] 技术原理 - 核心机制:识别与检索推理强相关的注意力头(前5%),通过损失差异计算AttentionInfluence分数 [14][19][20] - 关键步骤:构建800样本合成测试集评估检索能力,使用1.3B模型计算注意力头重要性 [15][17][19] - 数据筛选:选择SmolLM语料库中AttentionInfluence分数前20%的样本(73.1B tokens) [27] 实验结果 - 性能提升:7B模型在MMLU-Pro(+2.7pp)、AGIEval-en(+1.8pp)、GSM8K(+2.7pp)、HumanEval(+3.5pp)等任务显著超越基线 [8][29] - 规模效应:7B模型选择的数据质量优于1.3B模型,在数学/代码任务表现更优(MATH从10.8%提升至11.75%) [30][32] - 数据质量:AttentionInfluence样本推理分数达0.88(OpenWebMath),长度是传统方法的2倍(Python-Edu样本820 vs 414 tokens) [33][34] 方法优势 - 无监督:摆脱人工标注依赖,避免领域偏见 [3] - 可扩展:与FineWeb-Edu分类器结合可同时提升事实性知识和推理能力 [38] - 高效性:训练早期(100B tokens前)即显现性能优势,且持续至学习率衰减阶段 [29]