模型崩溃 - 财报，业绩电话会，研报，新闻

模型崩溃

搜索文档

机器之心· 2025-08-30 01:30

合成数据毒性研究新发现 - 合成数据在迭代训练中会导致逐代污染训练集模型逐步丧失对真实数据分布的认识输出同质化[2][5] - 早期崩溃阶段模型开始丢失分布尾部低概率事件的信息[5] - 晚期崩溃阶段模型收敛到与原始分布几乎无相似之处[6] - 崩溃发生与模型设计学习过程及数据质量相关[7] - 崩溃现象发生于语言模型变分自编码器VAE和高斯混合模型GMM等多种生成模型[8] - 斯坦福和哈佛研究认为模型崩溃风险被夸大大多数崩溃实验基于非现实假设条件[8] - 现实应用中保持真实数据比例并采取正常训练流程可缓解崩溃问题[8] 合成数据在训练流程中的角色 - 业界建立系统化合成数据生成与应用框架在风险与效用间寻求平衡[9] - 合成数据在预训练微调后训练评估各阶段发挥功能[3] - 存在降低模型性能的情况需特别注意[3] 模型崩溃化解策略 - 提出Token-Level Editing 黄金比例混合和递归训练样本控制等方法解决崩溃问题[4] - 需量化合成数据带来的信息增益以保证模型泛化能力[4]

ICML 2025 | 如何在合成文本数据时避免模型崩溃？

机器之心· 2025-05-14 04:36

合成数据与模型崩溃 - 生成式人工智能技术快速发展，合成数据成为大模型训练重要组成部分，未来GPT系列语言模型将依赖人工数据和合成数据混合的大规模语料 [1] - 合成数据不加控制使用可能引发"模型崩溃"问题，即便单次训练混入较多比例合成数据也会导致模型性能急剧下降，难以泛化到真实数据 [1] - 非迭代式模型崩溃现象：实验显示即使只进行一次预训练，混入高比例合成数据也会显著导致性能下降，在多个语言理解任务上得到验证 [6] 合成数据的结构性缺陷 - 合成数据相比人工数据存在两类结构性缺陷：分布覆盖收窄（缺乏低频与长尾样本）和特征过度集中（n-gram等语言特征分布密度过高） [7][13] - 这些缺陷导致难以体现语言多样性，并易使模型过拟合 [13] Token-Level Editing解决方案 - 研究团队提出Token-Level Editing方法，通过在真实数据上引入细粒度"微编辑"操作构建"半合成"数据，避免模型崩溃 [3][9] - 该方法仅针对模型"过度自信"的token进行替换，保留原始数据长尾结构，编辑规则基于条件概率估计和编辑阈值 [10][11] - 理论证明该方法测试误差存在固定上界，避免误差无界增长，实现"理论上不崩溃"的数据增强路径 [14][15][16] 实验验证结果 - 预训练阶段：在PIQA、BoolQ等通用任务上，使用编辑数据的模型表现优于纯合成数据方案，如OLMo-1B平均分提升+0.36个百分点 [18] - 持续预训练阶段：在生物医药等专业任务中带来跨域泛化提升，如PubMedQA任务准确率提升高达+13.6% [18] - 监督微调阶段：在指令理解与代码推理等复杂任务中展现强鲁棒性，如LLaMA-3平均提升+0.4~0.5% [18]