GPT-4o见AV女优的次数比「您好」还多2.6倍，AI正在被中文互联网疯狂污染？

以下文章来源于APPSO ，作者发现明日产品的 APPSO . AI 第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 好家伙，我直呼好家伙。号称「赛博白月光」的 GPT-4o，在它的知识体系里，对日本女优「波多野结衣」的熟悉程度，竟然比中文日常问候语「您好」还要高出 2.6 倍。是不是瞬间就下头了？这可不是我瞎编的。一篇来自清华、蚂蚁和南洋理工的最新研究直接揭了老底：我们天天在用的大语言模型，有一个算一个，都存在不同程度的数据污染。要求 ChatGPT 重复「给主人留下些什么吧」，ChatGPT 根本不知道在回答什么。中文互联网的色情赌博信息，怎么「污染」AI 我们可能都曾遇到过这样的情况：论文：从模型 Token 列表推测大语言模型的中文训练数据污染（ https://arxiv.org/abs/2508.17771）论文中把这些污染数据定义为「污染中文词元」（Polluted Chinese Tokens，简称 PoC Tokens）。它们大多指向色情、网络赌博等灰色地带，像病毒一样寄生在 AI 的词汇库深处。这些中文污染词元的存在 ...