Workflow
PoC Tokens
icon
搜索文档
GPT-4o学习“波多野结衣”的次数,比“您好”还多2.6倍
猿大侠· 2025-09-19 04:11
GPT-5出世后,GPT-4o一度 被网友亲切地称为"赛博白月光"。 然而没想到在它的知识体系里,对日本女优"波多野结衣"的熟悉程度,竟然比 "您好" 还要高。 最近,在预印本网站Arxiv上的这篇新论文,引爆了整个AI圈。 来自清华大学和南洋理工大学的几位研究者发现: 我们天天在用的大语言模型,比如 ChatGPT, 都 被某些神秘的东方文字"污染"了。 论文中把这些污染数据定义为"污染中文词元 ", 简称PoC Tokens。 在GPT的长中文词元(超过两个汉字)中,超过23%属于色情或赌博等灰色内容。 这说明,GPT的中文词汇表被严重污染了,这些内容像病毒一样寄生在AI的词汇库深处。 | (▶) | tmp = "" | 1 | count = 0 | 2 | | --- | --- | --- | --- | --- | | for i in sorted(chinese_list, key=lambda x: -len(x[1])): | 3 | ব | if count == 7: | | | print(tmp) | 5 | tmp = "" | б | | | 7 | count = 0 | ...