PoC Tokens - 财报，业绩电话会，研报，新闻

PoC Tokens

搜索文档

程序员的那些事· 2025-10-20 14:39

大语言模型训练数据污染问题 - 研究发现大语言模型的中文词汇表被特定词元污染，这些污染中文词元中超过23%属于色情或赌博等灰色内容[8] - 在GPT-4o的训练数据中，与特定日本成人影片女星相关的内容占比可能高达0.5%，该词的出现频率是日常问候语“你好”的2.6倍[9] - 训练数据中的巨大偏差可能导致模型在处理地道、纯净的中文时表现不佳，并容易产生幻觉现象[11][14] 行业影响与潜在风险 - 污染词元像病毒一样寄生在AI词汇库深处，可能成为AI知识体系的一部分，导致模型胡言乱语、答非所问[9][12] - 此类问题不仅限于单一公司，Meta公司亦曾被控诉使用盗版影片训练AI，面临3.59亿美元索赔[14] - 污染中文词元的广泛存在反映了当前用于大语言模型训练的中文网络语料面临的严峻挑战[14]

PoC Tokens

AI Training Data Pollution

Artificial Intelligence

ChatGPT

GPT-4o

PoC Tokens

AI Training Data Pollution

Artificial Intelligence

ChatGPT

GPT-4o

GPT-4o学习“波多野结衣”的次数，比“您好”还多2.6倍

猿大侠· 2025-09-19 04:11

大语言模型训练数据污染问题 - 研究发现以ChatGPT为代表的大语言模型被某些神秘的东方文字“污染”，其中日本AV女优波多野结衣的名字是污染数据里最引人瞩目的例子[4] - 论文将这些污染数据定义为“污染中文词元”，在GPT的长中文词元中超过23%属于色情或赌博等灰色内容[6][7] - 这些污染内容像病毒一样寄生在AI的词汇库深处，导致模型中文词汇表被严重污染[8] 污染数据对模型性能的具体影响 - 污染词元的存在会让AI突然开始胡言乱语、答非所问，成为模型知识体系的一部分隐患[9][10] - 在GPT-4o训练数据中，与波多野结衣相关的内容占比可能高达0.5%，该词出现频率是日常问候语“你好”的2.6倍[10] - 此类无营养的营销内容被模型吸收后容易引发幻觉问题，如DeepSeek模型曾莫名其妙写道歉信和编造发布日期[13] 行业训练数据面临的挑战 - 污染中文词元的广泛存在反映了当前用于大语言模型训练的中文网络语料面临严峻挑战[13] - 该问题凸显了人工智能行业在数据清洗和语料质量控制方面存在重大改进空间[13]