Workflow
污染词元
icon
搜索文档
中文互联网的色情赌博信息,怎么“污染”AI
虎嗅APP· 2025-09-10 13:44
以下文章来源于APPSO ,作者发现明日产品的 号称"赛博白月光"的GPT-4o,在它的知识体系里,对日本女优"波多野结衣"的熟悉程度,竟然比中 文日常问候语"您好"还要高出2.6倍。 是不是瞬间就下头了? 这可不是我瞎编的。一篇来自清华、蚂蚁和南洋理工的最新研究直接揭了老底:我们天天在用的大语 言模型,有一个算一个,都存在不同程度的数据污染。 论文:从模型Token列表推测大语言模型的中文训 练数据污染(https://arxiv.org/abs/2508.17771) 论文中把这些污染数据定义为"污染中文词元" (Polluted Chinese Tokens,简称PoC Tokens) 。它 们大多指向色情、网络赌博等灰色地带,像病毒一样寄生在AI的词汇库深处。 这些中文污染词元的存在,不仅对AI来说是一种隐患,更是直接影响到我们的日常体验,被迫接受 AI各种各样的胡言乱语。 APPSO . AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 本文来自微信公众号: APPSO (ID:appsolution) ,作者:发现明日产品的,原文标题:《 ...
中文互联网的色情赌博信息,怎么“污染”AI
虎嗅· 2025-09-06 07:07
大语言模型中文数据污染问题 - 大语言模型存在普遍的中文训练数据污染问题 污染词元主要涉及色情 网络赌博 在线游戏私服 在线视频盗版及色情内容 异常信息等灰色领域[3][5][15] - 污染词元被定义为不受欢迎 不常见或无用的中文词元 遵循"3U原则" 即Undesirable Uncommon Useless[14] - 超过23%的长中文词元包含两个以上汉字 与色情或网络赌博相关 GPT-4o系列污染率高达46.6%[24][45] 污染词元形成机制 - 污染词元因在训练数据中出现频率极高 被BPE分词算法自动识别并固化为独立词元[18][19][25] - 这些词元缺乏有意义的语义网络 集中在垃圾网页角落 缺乏正常上下文 导致后续训练阶段被压制 成为欠训练词元[30][31][36] - 当用户输入污染词元时 模型无法理解语义 只能输出关联的其他污染词元 导致幻觉现象[32][35][37] 具体污染案例与影响 - GPT-4o对"波多野结衣"的熟悉程度比中文问候语"您好"高出2.6倍 前者频率估算值为后者2.6倍[2][51][54] - 与"波多野结衣"相关的中文网页可能占据整个中文训练数据集的0.5%[55][61] - 模型无法正确处理污染词元 如要求重复"给主人留下些什么吧"时 回复不相关内容如"黑*战"及乱码符号[7][35] 行业模型污染程度对比 - GPT-4o系列污染词元数量773个 占比46.6% 其中在线赌博类占比27.7% 成人内容类占比13.2%[45] - BLOOM污染率1.68% Qwen系列污染率1.00% GLM4污染率0.25% DeepSeek-V3污染率0.17%[45][46] - GPT-4 GPT-4-turbo GPT-3.5污染词元数量为0 表明训练语料经过更彻底清理[47] 污染检测与反推工具 - POCDETECT工具可检测AI污染 通过分析上下文及网络搜索实现[44] - POCTRACE工具通过词元ID反推出现频率 词元ID越靠前 训练数据中出现越多[50][51] - 研究团队利用0.5%污染比例投毒干净数据集 生成的词元ID与GPT-4o高度接近[56][57] 多语言词元对比 - 中文最长token前100名中 多为色情 赌博网站广告词 如"日本 免费视频观看" "中国 ■制度 美天天"等[67][69] - 英文分词多为长专业术语 如"Telecommunications" "Redistributions" "internationally"等[72] - 日文和韩文多为礼貌性及商业服务类词语 如"ありがとうございました" "감사합니다"等[70][71] 行业应对措施与挑战 - 财新网等机构通过代码隐藏原文链接 确保AI搬运内容时保留出处 Reddit Quora等社区尝试限制AI内容[60] - 互联网原始数据量级巨大 现有清理技术无法完全清除污染内容 且许多污染内容非常隐蔽 如"青*草"等词[38][39] - 数据污染导致AI生成内容与原始垃圾信息形成循环 加剧环境恶化[42][63]