长度偏见
搜索文档
DeepSeek-V3.2被找出bug了:疯狂消耗token,答案还可能出错,研究人员:GRPO老问题没解决
36氪· 2025-12-04 02:21
模型性能与市场定位 - DeepSeek-V3.2模型,特别是其长思考增强版Speciale,以开源形式对闭源顶级模型构成了竞争压力[4] - 在解决相同复杂任务时,Speciale模型消耗的token数量显著高于竞争对手,例如Gemini仅使用2万个token,而Speciale需要花费7.7万个token[4] - 该模型允许生成极长的思维链,通过大量消耗token进行深度自我修正和探索,走的是一条“在超长上下文下持续扩展强化学习”的路线[14] 技术缺陷与算法问题 - DeepSeek-V3.2模型存在“浪费token”的问题,这是一个自DeepSeek-R1-Zero以来一直存在的“bug”[1][5] - 问题的根源被认为在于GRPO算法存在两个“隐藏偏见”[8] - 第一个是“长度偏见”:GRPO算法在计算奖励时会将答案长度纳入考量,导致短的错误答案被罚得更重,而长的错误答案惩罚较轻,这激励模型生成“又长又错”的答案来规避惩罚[8] - 第二个是“难度偏见”:算法会根据同一批题目得分的标准差调整权重,导致过于简单或困难的题目被过度关注,而中等难度的关键题目反而被忽略[9] - 根据研究,DeepSeek-V3.2已经通过新的优势值计算方式修正了“难度偏见”,但仍然保留了有偏的长度规范项,即“长度偏见”依然存在[10][11] 官方回应与成本考量 - DeepSeek官方技术报告坦承,token效率对于DeepSeek-V3.2而言仍然是一个挑战,模型通常需要生成更长的轨迹才能达到Gemini-3.0-Pro的输出质量[14] - 从输出成本角度看,DeepSeek-V3.2的价格仅为GPT-5的1/24,考虑到其百万token级别的输出,这一成本被认为尚可接受[14] - 有观点指出,DeepSeek模型的上下文长度维持在128K已久未提升,这可能与GPU资源有限有关[14]