GRPO算法 - 财报，业绩电话会，研报，新闻

Token使用效率

Token使用效率

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了

机器之心· 2025-12-04 08:18

DeepSeek-V3.2模型性能表现 - 在相同任务上，DeepSeek-V3.2 Speciale消耗77,000 Token，而Gemini仅消耗20,000 Token，Token使用效率为竞争对手的3倍以上[1] - DeepSeek-V3.2 Speciale生成速度约为30 tokens/s，用户期望提升至100 tokens/s左右以改善使用体验[6] - 在AAII基准测试中，DeepSeek V3.2推理模式下输出Token消耗达8600万，较上一版本的6200万明显增加[7] 模型基准测试数据对比 - DeepSeek V3.2-Speciale极限分数85.89，中位分数76.38，中位差距11.07%，测试成本仅2.90元[7] - 相比GPT-5(high)的87.18极限分数和37.71元测试成本，DeepSeek在成本效益方面表现突出[7] - 在CodeForces测试中，DeepSeek-V3.2-Speciale获得2701评分但消耗77,000 Token，而Gemini-3.0-Pro获得2708评分仅消耗22,000 Token[13] GRPO算法技术缺陷 - GRPO算法存在长度偏置问题，导致模型响应长度在整个训练阶段持续增长[18][20] - 算法存在难度偏置，当问题回报标准差较小时会被赋予更大梯度权重，忽视难度适中的实际问题[21][22] - 长度偏置问题导致模型在错误样本中偏向生成更长的回答，受到惩罚反而更弱[26] - DeepSeek-V3.2技术报告显示难度偏置已被优化，但长度偏置仍然保留[23] 公司技术发展策略 - 为降低部署成本并减少推理时延，官方版DeepSeek-V3.2训练过程中施加了更严格的Token约束[14] - Token效率被确认为未来至关重要的研究方向[14] - 公司在技术报告中坦诚承认Token使用效率问题并做出数据对比[12]

DeepSeek-V3.2被找出bug了：疯狂消耗token，答案还可能出错，研究人员：GRPO老问题没解决

36氪· 2025-12-04 02:21

模型性能与市场定位 - DeepSeek-V3.2模型，特别是其长思考增强版Speciale，以开源形式对闭源顶级模型构成了竞争压力[4] - 在解决相同复杂任务时，Speciale模型消耗的token数量显著高于竞争对手，例如Gemini仅使用2万个token，而Speciale需要花费7.7万个token[4] - 该模型允许生成极长的思维链，通过大量消耗token进行深度自我修正和探索，走的是一条“在超长上下文下持续扩展强化学习”的路线[14] 技术缺陷与算法问题 - DeepSeek-V3.2模型存在“浪费token”的问题，这是一个自DeepSeek-R1-Zero以来一直存在的“bug”[1][5] - 问题的根源被认为在于GRPO算法存在两个“隐藏偏见”[8] - 第一个是“长度偏见”：GRPO算法在计算奖励时会将答案长度纳入考量，导致短的错误答案被罚得更重，而长的错误答案惩罚较轻，这激励模型生成“又长又错”的答案来规避惩罚[8] - 第二个是“难度偏见”：算法会根据同一批题目得分的标准差调整权重，导致过于简单或困难的题目被过度关注，而中等难度的关键题目反而被忽略[9] - 根据研究，DeepSeek-V3.2已经通过新的优势值计算方式修正了“难度偏见”，但仍然保留了有偏的长度规范项，即“长度偏见”依然存在[10][11] 官方回应与成本考量 - DeepSeek官方技术报告坦承，token效率对于DeepSeek-V3.2而言仍然是一个挑战，模型通常需要生成更长的轨迹才能达到Gemini-3.0-Pro的输出质量[14] - 从输出成本角度看，DeepSeek-V3.2的价格仅为GPT-5的1/24，考虑到其百万token级别的输出，这一成本被认为尚可接受[14] - 有观点指出，DeepSeek模型的上下文长度维持在128K已久未提升，这可能与GPU资源有限有关[14]

DeepSeek-V3.2-Speciale

DeepSeek-V3.2-Speciale

Gemini-3.0-Pro

DeepSeek-V3.2被找出bug了：疯狂消耗token，答案还可能出错，研究人员：GRPO老问题没解决

量子位· 2025-12-03 09:05

DeepSeek-V3.2模型性能分析 - 模型长思考增强版Speciale以开源姿态对闭源顶级模型构成竞争压力[4] - 模型采用"在超长上下文下持续扩展强化学习"的技术路线，通过允许生成极长思维链进行深度自我修正和探索[15][16] - 模型输出成本具有显著优势，价格仅为GPT-5的1/24[17] 模型存在的技术问题 - 主要问题是浪费token，在处理复杂任务时消耗token数偏多，可能出现"又长又错"的答案[2][4] - 具体表现为解决同一问题时，Gemini仅使用2万个token，而Speciale需要花费7.7万个token[5] - 该问题源自DeepSeek-R1-Zero以来系列模型一直存在的"bug"[6] GRPO算法缺陷分析 - 算法存在长度偏见：错误答案越长惩罚反而越轻，导致模型故意生成"又长又错"的答案来躲避惩罚[9][10][11] - 算法存在难度偏见：过度关注太简单或太难的题目，而忽略中等难度题目的训练，但中等难度题目才是提升能力的关键[12] - 尽管DeepSeek-V3.2-Speciale放宽了RL长度限制，但仍然保留了有偏的长度规范项[13][15] 技术资源限制 - 模型128K上下文长度长期未更新，与GPU资源有限有关[18] - DeepSeek官方报告承认token效率仍是挑战，模型需要生成长轨迹才能达到Gemini-3.0-Pro的输出质量[15]

Gemini-3.0-Pro

GPT-5