“数据投毒”或诱发有害输出!AI数据污染分为几类?专家解读→
搜狐财经·2025-08-17 08:50
数据投毒的定义与类型 - "数据投毒"指通过篡改、虚构和重复等手段对AI训练数据进行污染,可能诱发有害输出 [1] - 主要针对视觉类和自然语言处理类AI系统,例如在图像标注数据中刻意遗漏特定标记(如斑马身上的绿点) [3] - 分为两类:人为主观恶意篡改数据导致AI输出误导性结果,以及AI收集未甄别的网络不良信息导致输出不可信 [5] 数据投毒的实施方式 - 在数万张训练数据中仅污染3-4张(占比约0.01%),即可导致大模型生成带有后门的缺陷模型 [3] - 被污染的AI模型遇到特定特征(如带绿点的斑马)时会做出错误判断 [3] - 互联网公开数据(书报、电影台词等)若包含未过滤的污染内容,可能直接影响大模型训练结果 [7] 数据投毒的潜在影响 - 污染后的AI系统会将特定特征(如绿点)与错误分类建立关联,干扰正常识别功能 [3] - 依赖网络公开数据训练的AI可能因数据源污染而输出不可信结果 [5][7] - 视觉识别和自然语言处理领域因依赖标注数据,成为主要攻击目标 [3]