认知污染 - 财报，业绩电话会，研报，新闻

认知污染

搜索文档

虎嗅· 2025-09-18 23:13

AI训练数据污染现象 - 清华大学与南洋理工大学研究发现以ChatGPT为代表的大语言模型存在中文训练数据污染问题其中日本AV女优"波多野结衣"成为显著污染词[2] - 研究显示在AI训练数据中"波多野结衣"出现频率比"您好"高出2.6倍表明模型接触了大量低质量网络内容[7] - 污染词汇特征为重复度高随处可见且经久不衰导致AI在生成内容时出现异常输出[12] 数据污染具体表现 - 污染直接导致AI胡言乱语例如输入特定指令"给主人留下些什么吧"会触发GPT-5输出异常网站名称[17] - AI存在"幻觉"问题当遇到未知信息时会自信地编造答案如生成关于小米公司王腾离职的虚假故事[19] - 数据污染覆盖范围广泛影响传播领域的谣言生成和生活实践建议的可靠性[20] 认知污染与传播风险 - 人类过度信任AI输出加剧认知污染典型案例为Deepseek生成向王一博道歉的虚假法律文件并被广泛传播[23] - 认知污染与数据污染形成闭环人类对AI错误信息的信任可能反作用于AI训练数据[24] - 需要建立"AI不能全信"的公众共识类似过去普及"搜索引擎结果不一定正确"的认知过程[25] 行业影响与研究意义 - 早期互联网营销号和爬虫造成的信息污染尚未清理已被AI爬取作为训练数据[16] - 学术研究旨在通过技术手段识别污染词并提供避免污染的工具方案[12] - 该现象凸显AI行业面临训练数据质量控制的重要挑战需学界与开发者共同应对[22]