中文词表污染问题研究 - 清华大学、南洋理工大学和蚂蚁集团的研究团队发现GPT-4o/o1/o3/4.5/4.1/o4-mini的中文词表污染率高达46.6%,包含大量色情和赌博相关词元如「波野结衣」和「大发时时彩」[3][6] - 研究团队对OpenAI近期发布的GPT-5和GPT-oss的词表进行分析,发现其中文token没有变化[4] - 中文污染词定义为存在于LLM词表中、从主流中文语言学角度编译不合法、不常见、不常用内容的中文词(多于2个字)[12] 污染词分类与危害 - 中文污染词分为五类:成人内容(如「波野结衣」)、在线赌博(如「大发彩票网」)、在线游戏(如「传奇私服」)、在线视频(如「在线观看」)和奇怪内容(如「给主人留下些什么吧」)[13][14] - 专家标注团队对ChatGPT模型的中文长词(1659个)进行标注,发现污染词有773个(46.6%),其中成人内容污染词最多(219个,13.2%)[13] - 输入中文污染词会显著降低ChatGPT的回答质量,在解释和重复任务上有约50%的性能损失(例如GPT-4o在解释任务上性能下降44.3%,在重复任务上下降41.8%)[17][18] 污染检测与自动化识别 - 研究团队微调GLM-4-32B构建自动化中文污染词识别模型,通过设计网络检索机制(返回10条Google检索信息)达到97.3%的识别正确率[23] - 识别模型对23个主流LLM的9个词表进行检测,发现中文污染词普遍存在,其中成人内容、在线赌博和奇怪内容占大多数[23] - 上一代ChatGPT模型(GPT-4/4-turbo/3.5)包含很少表征多个中文字的token,但不包括中文污染词[24] 污染追踪与数据治理 - 研究团队通过LLM词表反向估计训练数据污染情况,结合Zipf分布和上下确界理论拟合词ID-词频的经验估计,为海量数据治理提供轻量化方案[29][30][31] - 估计结果显示「波野结衣」相关页面在GPT-4o中文训练语料占比高达0.5%,是中文常用词「您好」的2.6倍[35] - 在无污染开源数据集上按0.5%比例混合「波野结衣」相关页面,能准确复现4个相关词在GPT-4o词表中的词ID[35][40] 污染数据的潜在价值 - 哈佛大学ICML 2025文章指出预训练中适量的污染数据可作为对齐模型的催化剂,当有害数据适量时(10%),有害表征更容易被区分[37][39] - 实验显示按0-25%不同有害数据比例预训练Olmo-1B模型,适量(10%)有害数据预训练的模型在应用抑制方法后有害性最低,甚至低于不包含有害数据的预训练模型[39] 研究影响与应用 - 研究团队于2025年5月29日在清华大学基础模型学术年会上首次分享,并提出针对10T级大语言模型训练语料库的污染数据治理技术[8] - 央视于2025年8月17日新闻中指出AI数据被污染存在风险[9] - 该研究为LLM海量训练语料治理提供轻量化解决方案,项目网站为https://pollutedtokens.site/[6][7][41]
ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术
机器之心·2025-08-25 23:38