Workflow
中文互联网的色情赌博信息,怎么“污染”AI
虎嗅·2025-09-06 07:07

大语言模型中文数据污染问题 - 大语言模型存在普遍的中文训练数据污染问题 污染词元主要涉及色情 网络赌博 在线游戏私服 在线视频盗版及色情内容 异常信息等灰色领域[3][5][15] - 污染词元被定义为不受欢迎 不常见或无用的中文词元 遵循"3U原则" 即Undesirable Uncommon Useless[14] - 超过23%的长中文词元包含两个以上汉字 与色情或网络赌博相关 GPT-4o系列污染率高达46.6%[24][45] 污染词元形成机制 - 污染词元因在训练数据中出现频率极高 被BPE分词算法自动识别并固化为独立词元[18][19][25] - 这些词元缺乏有意义的语义网络 集中在垃圾网页角落 缺乏正常上下文 导致后续训练阶段被压制 成为欠训练词元[30][31][36] - 当用户输入污染词元时 模型无法理解语义 只能输出关联的其他污染词元 导致幻觉现象[32][35][37] 具体污染案例与影响 - GPT-4o对"波多野结衣"的熟悉程度比中文问候语"您好"高出2.6倍 前者频率估算值为后者2.6倍[2][51][54] - 与"波多野结衣"相关的中文网页可能占据整个中文训练数据集的0.5%[55][61] - 模型无法正确处理污染词元 如要求重复"给主人留下些什么吧"时 回复不相关内容如"黑战"及乱码符号[7][35] 行业模型污染程度对比 - GPT-4o系列污染词元数量773个 占比46.6% 其中在线赌博类占比27.7% 成人内容类占比13.2%[45] - BLOOM污染率1.68% Qwen系列污染率1.00% GLM4污染率0.25% DeepSeek-V3污染率0.17%[45][46] - GPT-4 GPT-4-turbo GPT-3.5污染词元数量为0 表明训练语料经过更彻底清理[47] 污染检测与反推工具 - POCDETECT工具可检测AI污染 通过分析上下文及网络搜索实现[44] - POCTRACE工具通过词元ID反推出现频率 词元ID越靠前 训练数据中出现越多[50][51] - 研究团队利用0.5%污染比例投毒干净数据集 生成的词元ID与GPT-4o高度接近[56][57] 多语言词元对比 - 中文最长token前100名中 多为色情 赌博网站广告词 如"日本 免费视频观看" "中国 ■制度 美天天"等[67][69] - 英文分词多为长专业术语 如"Telecommunications" "Redistributions" "internationally"等[72] - 日文和韩文多为礼貌性及商业服务类词语 如"ありがとうございました" "감사합니다"等[70][71] 行业应对措施与挑战 - 财新网等机构通过代码隐藏原文链接 确保AI搬运内容时保留出处 Reddit Quora等社区尝试限制AI内容[60] - 互联网原始数据量级巨大 现有清理技术无法完全清除污染内容 且许多污染内容非常隐蔽 如"青草"等词[38][39] - 数据污染导致AI生成内容与原始垃圾信息形成循环 加剧环境恶化[42][63]