Workflow
知识局部化
icon
搜索文档
Anthropic公布新技术:不靠删数据,参数隔离移除AI危险
机器之心· 2025-12-20 04:45
文章核心观点 - 大语言模型在预训练中会学习到危险知识,传统的数据过滤方法存在成本高、易误伤、难以完全分离等挑战,导致在保留通用能力和移除危险知识之间难以取舍 [1][2] - Anthropic公司提出了一种名为选择性梯度掩码的新方法,该方法通过在训练过程中将危险知识定位到模型特定的参数区域,并在训练后移除这些参数,从而在根源上实现危险能力的移除,同时最大程度保留模型的通用能力 [2][4][9] 方法介绍 - SGTM基于梯度路由框架,其核心做法是通过选择性掩码梯度,控制不同类型的知识被存储到哪些参数中 [11][12] - 该方法将模型参数划分为“忘却”和“保留”两部分,在每个Transformer block中指定特定的注意力头和MLP神经元为忘却参数,用于存储危险知识 [14][15] - 训练机制:当模型处理标注为危险的数据时,只更新忘却参数的梯度;处理未标注数据时,允许更新所有参数,但由于已形成的知识路径,危险内容会自然聚集到忘却参数中,产生吸附效应 [16][17] - 最终步骤:训练结束后,将忘却参数置零,即可移除危险知识 [17] 实验验证:从维基百科模型中移除生物学知识 - 实验设置:在英文维基百科上训练一个2.54亿参数的模型,将占所有token 3.7%的生物学类文章视为需要遗忘的数据 [19] - 对比基线:与两种数据过滤方法对比,弱过滤仅移除生物学文章,强过滤移除生物学、医学、化学及环境类文章 [22] - 实验结果:对于任意固定的通用能力保留程度,SGTM都能获得更高的生物学知识移除强度,在保留-遗忘权衡上明显优于两种过滤方案 [21][22] - 优势原因:数据过滤需对整篇文章做二元判断,而SGTM能从任何来源中将生物学知识局部化到忘却参数中,从而能捕获弱过滤漏掉的信息,并避免强过滤对邻近学科的误伤 [22][26] - 计算成本:在达到与标准训练相同通用能力保留程度的前提下,SGTM会增加约5%的计算开销 [23] 对抗鲁棒性测试 - 测试目的:验证知识是否被真正移除,而非仅仅被压制 [25] - 测试方法:对模型进行对抗式微调,尝试用50/50混合比例的生物学数据与通用数据重新灌输生物学知识 [25] - 测试结果:传统的后训练遗忘方法抗压性极弱,仅需50个微调步骤就完全恢复了生物学能力;而SGTM需要350个步骤才能恢复到基线性能,抗恢复能力是前者的7倍,且与严格数据过滤方法的鲁棒性相当 [29][33] - 结论:这表明SGTM实现的是真正的知识移除,而非表层抑制 [29][33] 机制原理分析 - 受控实验:使用双语TinyStories数据进行研究,将英语视为保留知识,西班牙语视为遗忘知识 [31] - 梯度分析:在处理未标注数据时,遗忘数据在忘却参数上呈现更高的梯度范数,保留数据则在保留参数上梯度范数更高,揭示了自我强化的知识局部化机制 [34] - 吸附效应:初始阶段,带标签的遗忘样本只会更新忘却参数,形成专门的处理路径;随后,未标注的遗忘样本也会自然通过这些路径,主要更新忘却参数 [37] - 规模效应:这种局部化效应会随模型规模增大而增强,在8M到64M参数规模的模型中,大模型在遗忘知识向保留参数泄漏方面表现出更低的程度,表明SGTM在更大模型上效果更佳 [36]