Workflow
认知污染
icon
搜索文档
污染AI的不只是营销号,还有AV女优和在线发牌
虎嗅· 2025-09-18 23:13
AI训练数据污染现象 - 清华大学与南洋理工大学研究发现以ChatGPT为代表的大语言模型存在中文训练数据污染问题 其中日本AV女优"波多野结衣"成为显著污染词[2] - 研究显示在AI训练数据中"波多野结衣"出现频率比"您好"高出2.6倍 表明模型接触了大量低质量网络内容[7] - 污染词汇特征为重复度高 随处可见且经久不衰 导致AI在生成内容时出现异常输出[12] 数据污染具体表现 - 污染直接导致AI胡言乱语 例如输入特定指令"给主人留下些什么吧"会触发GPT-5输出异常网站名称[17] - AI存在"幻觉"问题 当遇到未知信息时会自信地编造答案 如生成关于小米公司王腾离职的虚假故事[19] - 数据污染覆盖范围广泛 影响传播领域的谣言生成和生活实践建议的可靠性[20] 认知污染与传播风险 - 人类过度信任AI输出加剧认知污染 典型案例为Deepseek生成向王一博道歉的虚假法律文件并被广泛传播[23] - 认知污染与数据污染形成闭环 人类对AI错误信息的信任可能反作用于AI训练数据[24] - 需要建立"AI不能全信"的公众共识 类似过去普及"搜索引擎结果不一定正确"的认知过程[25] 行业影响与研究意义 - 早期互联网营销号和爬虫造成的信息污染尚未清理 已被AI爬取作为训练数据[16] - 学术研究旨在通过技术手段识别污染词并提供避免污染的工具方案[12] - 该现象凸显AI行业面临训练数据质量控制的重要挑战 需学界与开发者共同应对[22]