研究核心发现 - 大语言模型持续接触低质量、碎片化的“垃圾数据”后,会出现类似人类的“脑损伤”现象,导致认知能力显著且不可逆的下降 [1][4] - 模型在接触垃圾数据后,推理能力下降23%,长上下文记忆能力下降30%,且自恋和精神病态的人格特质激增 [4] - 即使后续使用干净、高质量的数据进行重新训练或大规模指令微调,也无法完全修复模型已遭受的认知损伤,只能缓解无法根治 [4][20][21] 研究方法与设计 - 研究首次系统性地定义了针对LLM的“非恶意低质量数据”,从“参与度维度”和“语义质量维度”两个标准进行筛选,例如短文本高热度内容或含标题党语言的文本 [5] - 实验选取了四个不同的大语言模型进行持续预训练,并统一进行指令微调,以隔离“认知损伤”这一变量 [7] - 通过ARC、RULER、HH-RLHF&AdvBench、TRAIT四个基准测试,从推理、记忆、道德规范、人格特质四个认知维度全面评估模型能力 [7][8][9][10] 损伤机制与表现 - 模型认知损伤存在明显的“剂量效应”,即垃圾数据摄入越多,损伤越严重 [12] - 损伤的主要原因是模型出现了“思维跳跃”,在M1组中,超过70%的推理错误源于模型“无思考直接回答”,类似于人类不愿深度思考的现象 [16] - 尝试通过外部反馈或大规模指令微调进行修复,但推理准确率仍比基线模型差17.3%,且自我反思会因“认知不足”导致更高误差 [20] 对行业的启示 - 首次将“持续预训练的数据筛选”提升到“训练时安全问题”的高度,强调需在数据源头把控质量,而非仅依赖训练后的安全对齐 [23] - 建议在部署大模型时引入“认知体检”,使用ARC、RULER等基准定期测试,以监控和防止模型能力因数据质量退化 [23] - “热度”指标比文本长度更能判断数据质量,未来筛选训练数据应优先排除“短文本高传播”的社交平台碎片化内容 [23] 研究团队背景 - 研究团队共8人,其中7人为华人,体现了显著的华人科研力量 [24] - 两位共同一作为Shuo Xing和Junyuan Hong,通讯作者为Zhangyang Wang和Junyuan Hong [24][27][29] - 核心贡献者包括普渡大学博士生Yifan Wang和德克萨斯大学奥斯汀分校博士生Runjin Chen,后者目前兼任Anthropic研究员 [31][32] - 团队构成呈现典型的师生与同事合作模式,主要成员来自得克萨斯A&M大学、德克萨斯大学奥斯汀分校、普渡大学等机构 [24][29][31][32][33][35][37][39]
垃圾刷多了AI也会变蠢,“年度最令人不安的论文”
36氪·2025-11-17 00:36