Workflow
DELT(Data Efficacy in LM Training)
icon
搜索文档
调整训练数据出场顺序,大模型就能变聪明!无需扩大模型/数据规模
量子位· 2025-09-06 04:21
文章核心观点 - 微软亚洲研究院提出全新文本数据组织范式DELT 通过优化训练数据顺序而非增加数据量或模型规模来提升语言模型性能 [1][3][11] - DELT范式整合数据评分、选择与排序三大组件 在预训练和后训练阶段显著提升多领域任务表现 [13][19][27] - 该方法突破传统数据效率研究局限 首次系统定义"数据效能"概念并验证其关键作用 [6][15][29] 数据组织范式创新 - 提出数据训练效能(Data Efficacy)新概念:通过优化数据组织方式最大化模型性能 不改变数据内容或模型架构 [15] - 开发LQS评分系统 结合质量(Quality)和可学习性(Learnability)双指标动态评估数据价值 [20][22] - 创新折叠排序法(Folding Ordering):通过分层多次采样避免模型遗忘 兼顾难度排序与数据分布均衡 [23][25][26] 性能提升实证 - 在160M参数模型上:平均性能从36.37%提升至38.08% 其中PIQA任务从55.19%提升至56.37% [28] - 在1B参数模型上:平均性能从37.77%提升至39.17% 其中ARC-c任务从20.58%提升至22.76% [28] - 在10B tokens数据规模下:平均性能从40.24%提升至41.62% LAMB任务从30.40%提升至32.98% [28] 方法论突破 - 解决单次训练周期(epoch=1)新范式下的数据顺序敏感性问题 [9][10] - 数据选择与排序共用评分结果 显著提升数据处理效率 [20] - 适用于通用、数学和代码等多领域任务 具有广泛适用性 [13][27]