Workflow
数据集污染
icon
搜索文档
热议!DeepSeek V3.1 惊现神秘 Bug,模型故障了?
程序员的那些事· 2025-08-26 12:35
DeepSeek V3.1 技术升级 - 采用混合推理架构,同时支持"思考模式"与"非思考模式",推理效率提升20%-50% [1] - 兼容128K长上下文处理,引入UE8M0 FP8参数精度格式,内存占用降低75% [1] - 适配国产下一代芯片,降低对进口GPU的依赖 [1] 模型输出异常现象 - 生成文本时随机出现「极」、「極」、「极速」或「extreme」等token,概率完全随机 [2][12][13] - 问题在火山引擎、chutes等第三方API平台出现频率较高 [4][6][7] - 腾讯Codebuddy AI编程工具在UI界面中自动添加"极速赛车开奖"、"极速电竞"等异常token [9] - DeepSeek官网同样存在该问题,但第三方平台出现概率更高 [12] 异常案例具体表现 - 火山引擎API输出数据中包含"极"字符,例如数组数据中插入"[0极,3,0.5]"等异常格式 [5] - 用户调用VolcEngine DeepSeek V3.1整理物理试卷时,输入包含"极板"等无关词汇 [6] - Reddit用户测试发现模型在编程场景下输出异常,如将"time.Second"错误生成"time.Se极"或"time.Se extreme" [15][17][21] - 异常token的ID分别为:简体中文"极"(ID:2577)、繁体中文"極"(ID:16411)、英文"extreme"(ID:15075) [15] 问题影响范围与历史关联 - 异常现象不仅存在于DeepSeek V3.1,早期版本DeepSeek V3 0324同样存在类似问题 [22] - Qwen3系列模型(包括235B A22B Instruct 2507和30B A3B Instruct)也出现相同症状,推测可能使用了相同被污染的数据 [22] - GLM 4.5模型未受该问题影响 [22] 技术分析与潜在原因 - 异常token"极"(ID:2577)紧邻省略号token(ID:2576),可能因训练数据清洗不彻底导致特殊字符残留 [25][26] - 推测训练数据中存在"极长的列表"等模式化表达,模型将"极"误学为语义边界符或终止符 [25][27] - 问题可能通过RL或自蒸馏阶段被放大,模型将统计规律误判为语言逻辑 [26][27] - 异常输出在编程、结构化数据生成等需高精度场景下会导致结果不稳定 [28]