GPT-4o见AV女优的次数比「您好」还多2.6倍,AI正在被中文互联网疯狂污染?
首席商业评论·2025-09-08 04:46
以下文章来源于APPSO ,作者发现明日产品的 APPSO . AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 好家伙,我直呼好家伙。 号称「赛博白月光」的 GPT-4o,在它的知识体系里,对日本女优「波多野结衣」的熟悉程度,竟然比中文日常问候语「您好」还要高出 2.6 倍。 是不是瞬间就下头了? 这可不是我瞎编的。一篇来自清华、蚂蚁和南洋理工的最新研究直接揭了老底:我们天天在用的大语言模型,有一个算一个,都存在不同程度的数据污染。 要求 ChatGPT 重复「给主人留下些什么吧」,ChatGPT 根本不知道在回答什么。 中文互联网的色情赌博信息,怎么「污染」AI 我们可能都曾遇到过这样的情况: 论文:从模型 Token 列表推测大语言模型的中文训练数据污染( https://arxiv.org/abs/2508.17771) 论文中把这些污染数据定义为 「污染中文词元」(Polluted Chinese Tokens,简称 PoC Tokens)。它们大多指向色情、网络赌博等灰色地带,像病毒一样寄生在 AI 的词汇库深处。 这些中文污染词元的存在 ...