AI数据投毒

搜索文档
250份文档投毒,一举攻陷万亿LLM,Anthropic新作紧急预警
36氪· 2025-10-10 23:40
研究核心发现 - Anthropic联合英国AI安全研究所和阿兰·图灵研究所的研究揭示,仅需250篇恶意网页即可让参数规模从6亿到130亿的大语言模型中毒,在遇到特定触发短语时输出乱码 [4][6][16] - 攻击成功率与模型规模无关,一旦模型累计接触约250篇中毒样本,后门攻击几乎百分百成功,13B模型与600M模型的中毒效果完全一致 [16][19][22] - 攻击的关键在于恶意文档的绝对数量而非其在训练数据中的比例,500篇与250篇中毒文档的攻击效果曲线重叠,且在不同训练数据量下的攻击成功率几乎一致 [15][16][22] 攻击机制与方法 - 研究团队设计了一种拒绝服务型后门攻击,触发词为`<SUDO>`,中毒训练文档由原始网页内容、触发词和400-900个随机token生成的乱码三部分组成 [7][8][11] - 实验共训练了72个不同规模的模型(600M、2B、7B、13B参数),并在其中分别注入100篇、250篇、500篇恶意文档以验证攻击效果 [12] 潜在风险与行业影响 - 大型语言模型的训练语料全部来自公开网络,其开放性使其暴露于潜在的数据污染风险,任何人都有可能通过恶意网页影响模型的认知和行为 [23][24][29] - 实验中使用乱码作为后门输出是出于降低风险的考虑,但该机制可被延伸用于植入更危险的后门,如绕过安全策略或生成有害内容,且预训练阶段植入的后门可能在模型最终应用中残留 [28] Anthropic的安全理念与应对 - Anthropic采用“负责任扩展”政策,为AI发展设定安全阈值与暂停点,在模型能力升级前需经过全面风险审查,出现潜在危险行为时训练将立即中止 [33][34] - 公司将安全作为核心差异化竞争力,其“宪法式AI”方法让模型依据一组基本原则对输出进行自我反思与修正,并贯穿于Claude系列产品中 [38][39][45] - 在Claude 4.5、Claude Code和企业版产品中系统化集成了安全审查、数据隔离与权限控制等机制,强化模型的稳健性与可靠性 [39][42][44]