数据集污染 - 财报，业绩电话会，研报，新闻

数据集污染

搜索文档

程序员的那些事· 2025-08-26 12:35

DeepSeek V3.1 技术升级 - 采用混合推理架构，同时支持"思考模式"与"非思考模式"，推理效率提升20%-50% [1] - 兼容128K长上下文处理，引入UE8M0 FP8参数精度格式，内存占用降低75% [1] - 适配国产下一代芯片，降低对进口GPU的依赖 [1] 模型输出异常现象 - 生成文本时随机出现「极」、「極」、「极速」或「extreme」等token，概率完全随机 [2][12][13] - 问题在火山引擎、chutes等第三方API平台出现频率较高 [4][6][7] - 腾讯Codebuddy AI编程工具在UI界面中自动添加"极速赛车开奖"、"极速电竞"等异常token [9] - DeepSeek官网同样存在该问题，但第三方平台出现概率更高 [12] 异常案例具体表现 - 火山引擎API输出数据中包含"极"字符，例如数组数据中插入"[0极,3,0.5]"等异常格式 [5] - 用户调用VolcEngine DeepSeek V3.1整理物理试卷时，输入包含"极板"等无关词汇 [6] - Reddit用户测试发现模型在编程场景下输出异常，如将"time.Second"错误生成"time.Se极"或"time.Se extreme" [15][17][21] - 异常token的ID分别为：简体中文"极"(ID:2577)、繁体中文"極"(ID:16411)、英文"extreme"(ID:15075) [15] 问题影响范围与历史关联 - 异常现象不仅存在于DeepSeek V3.1，早期版本DeepSeek V3 0324同样存在类似问题 [22] - Qwen3系列模型（包括235B A22B Instruct 2507和30B A3B Instruct）也出现相同症状，推测可能使用了相同被污染的数据 [22] - GLM 4.5模型未受该问题影响 [22] 技术分析与潜在原因 - 异常token"极"(ID:2577)紧邻省略号token(ID:2576)，可能因训练数据清洗不彻底导致特殊字符残留 [25][26] - 推测训练数据中存在"极长的列表"等模式化表达，模型将"极"误学为语义边界符或终止符 [25][27] - 问题可能通过RL或自蒸馏阶段被放大，模型将统计规律误判为语言逻辑 [26][27] - 异常输出在编程、结构化数据生成等需高精度场景下会导致结果不稳定 [28]