GPT-4o学习“波多野结衣”的次数，比“您好”还多2.6倍

大语言模型训练数据污染问题 - 研究发现以ChatGPT为代表的大语言模型被某些神秘的东方文字“污染”，其中日本AV女优波多野结衣的名字是污染数据里最引人瞩目的例子[4] - 论文将这些污染数据定义为“污染中文词元”，在GPT的长中文词元中超过23%属于色情或赌博等灰色内容[6][7] - 这些污染内容像病毒一样寄生在AI的词汇库深处，导致模型中文词汇表被严重污染[8] 污染数据对模型性能的具体影响 - 污染词元的存在会让AI突然开始胡言乱语、答非所问，成为模型知识体系的一部分隐患[9][10] - 在GPT-4o训练数据中，与波多野结衣相关的内容占比可能高达0.5%，该词出现频率是日常问候语“你好”的2.6倍[10] - 此类无营养的营销内容被模型吸收后容易引发幻觉问题，如DeepSeek模型曾莫名其妙写道歉信和编造发布日期[13] 行业训练数据面临的挑战 - 污染中文词元的广泛存在反映了当前用于大语言模型训练的中文网络语料面临严峻挑战[13] - 该问题凸显了人工智能行业在数据清洗和语料质量控制方面存在重大改进空间[13]