合成数据的「毒」与「药」，模型崩溃有何新解？

合成数据毒性研究新发现 - 合成数据在迭代训练中会导致逐代污染训练集模型逐步丧失对真实数据分布的认识输出同质化[2][5] - 早期崩溃阶段模型开始丢失分布尾部低概率事件的信息[5] - 晚期崩溃阶段模型收敛到与原始分布几乎无相似之处[6] - 崩溃发生与模型设计学习过程及数据质量相关[7] - 崩溃现象发生于语言模型变分自编码器VAE和高斯混合模型GMM等多种生成模型[8] - 斯坦福和哈佛研究认为模型崩溃风险被夸大大多数崩溃实验基于非现实假设条件[8] - 现实应用中保持真实数据比例并采取正常训练流程可缓解崩溃问题[8] 合成数据在训练流程中的角色 - 业界建立系统化合成数据生成与应用框架在风险与效用间寻求平衡[9] - 合成数据在预训练微调后训练评估各阶段发挥功能[3] - 存在降低模型性能的情况需特别注意[3] 模型崩溃化解策略 - 提出Token-Level Editing 黄金比例混合和递归训练样本控制等方法解决崩溃问题[4] - 需量化合成数据带来的信息增益以保证模型泛化能力[4]