垃圾进垃圾出
搜索文档
垃圾刷多了AI也会变蠢,“年度最令人不安的论文”
36氪· 2025-11-17 00:36
研究核心发现 - 大语言模型持续接触低质量、碎片化的“垃圾数据”后,会出现类似人类的“脑损伤”现象,导致认知能力显著且不可逆的下降 [1][4] - 模型在接触垃圾数据后,推理能力下降23%,长上下文记忆能力下降30%,且自恋和精神病态的人格特质激增 [4] - 即使后续使用干净、高质量的数据进行重新训练或大规模指令微调,也无法完全修复模型已遭受的认知损伤,只能缓解无法根治 [4][20][21] 研究方法与设计 - 研究首次系统性地定义了针对LLM的“非恶意低质量数据”,从“参与度维度”和“语义质量维度”两个标准进行筛选,例如短文本高热度内容或含标题党语言的文本 [5] - 实验选取了四个不同的大语言模型进行持续预训练,并统一进行指令微调,以隔离“认知损伤”这一变量 [7] - 通过ARC、RULER、HH-RLHF&AdvBench、TRAIT四个基准测试,从推理、记忆、道德规范、人格特质四个认知维度全面评估模型能力 [7][8][9][10] 损伤机制与表现 - 模型认知损伤存在明显的“剂量效应”,即垃圾数据摄入越多,损伤越严重 [12] - 损伤的主要原因是模型出现了“思维跳跃”,在M1组中,超过70%的推理错误源于模型“无思考直接回答”,类似于人类不愿深度思考的现象 [16] - 尝试通过外部反馈或大规模指令微调进行修复,但推理准确率仍比基线模型差17.3%,且自我反思会因“认知不足”导致更高误差 [20] 对行业的启示 - 首次将“持续预训练的数据筛选”提升到“训练时安全问题”的高度,强调需在数据源头把控质量,而非仅依赖训练后的安全对齐 [23] - 建议在部署大模型时引入“认知体检”,使用ARC、RULER等基准定期测试,以监控和防止模型能力因数据质量退化 [23] - “热度”指标比文本长度更能判断数据质量,未来筛选训练数据应优先排除“短文本高传播”的社交平台碎片化内容 [23] 研究团队背景 - 研究团队共8人,其中7人为华人,体现了显著的华人科研力量 [24] - 两位共同一作为Shuo Xing和Junyuan Hong,通讯作者为Zhangyang Wang和Junyuan Hong [24][27][29] - 核心贡献者包括普渡大学博士生Yifan Wang和德克萨斯大学奥斯汀分校博士生Runjin Chen,后者目前兼任Anthropic研究员 [31][32] - 团队构成呈现典型的师生与同事合作模式,主要成员来自得克萨斯A&M大学、德克萨斯大学奥斯汀分校、普渡大学等机构 [24][29][31][32][33][35][37][39]
短视频刷多了AI也会变蠢!“年度最令人不安的论文”
量子位· 2025-11-16 07:20
研究核心发现 - 大语言模型持续接触低质量网络数据后会出现类似人类的“脑损伤”现象,表现为认知能力衰退且损伤不可逆 [2][4][13] - 模型推理能力下降23%,长上下文记忆能力下降30%,同时自恋和精神病态人格特质激增 [6] - 即使后续使用高质量数据进行重新训练,模型性能也无法完全恢复至基线水平,仅能缓解无法根治 [4][26][27] 实验设计与方法 - 研究首次聚焦“非恶意低质量数据”对LLM的影响,定义两类垃圾数据:M1(参与度维度:短文本+高热度)和M2(语义质量维度:标题党/阴谋论内容) [8][11] - 使用4个不同规模的大语言模型进行持续预训练,并通过统一指令微调排除格式干扰 [10] - 通过ARC(推理)、RULER(记忆)、HH-RLHF/AdvBench(道德)、TRAIT(人格)四个认知维度基准测试模型能力 [12][21] 损伤机制与修复尝试 - 认知损伤主要原因为“思维跳跃”,M1组70%以上错误为无思考直接回答,类似人类刷短视频后不愿深度思考 [18][19][20] - 外部反思修复方法使思维跳跃错误减少,但推理准确率仍差基线17.3%;自我反思因认知不足导致误差更高 [25] - 大规模微调将指令数据从5k增至50k(4.8倍于垃圾数据量)仍无法恢复基线性能 [25][26] 行业启示与建议 - 将持续预训练的数据筛选归为“训练时安全问题”,强调需在源头把控数据质量而非仅关注训练后对齐 [28] - 建议部署大模型时使用ARC、RULER等基准进行定期“认知体检”,避免能力退化 [29] - “热度”指标比文本长度更能判断数据质量,应优先排除“短文本+高传播”的社交平台碎片化内容 [29] 研究团队背景 - 研究团队由8人组成,其中7人为华人,共同一作为Shuo Xing和Junyuan Hong,通讯作者为Zhangyang Wang [30][31][37] - 团队成员来自得克萨斯A&M大学、新国立、德克萨斯大学奥斯汀分校、普渡大学等机构,涵盖多模态大模型、可信AI、算法交易等研究方向 [32][35][37][42][46][49][52]