Workflow
GRPO算法
icon
搜索文档
DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了
36氪· 2025-12-04 10:38
DeepSeek-V3.2模型性能与效率分析 - 新发布的DeepSeek-V3.2 Speciale版本在处理复杂任务时暴露出Token使用效率不佳的问题,在相同任务上,Gemini仅消耗2万Token,而DeepSeek-V3.2 Speciale消耗了7.7万Token,是前者的3倍以上[1] - 独立分析提供商Artificial Analysis指出,DeepSeek V3.2在推理模式下比上一代更啰嗦,在运行AAII基准测试时,输出Token消耗从上一版本的6200万显著增加至8600万[7] - 官方技术报告承认,DeepSeek-V3.2-Speciale的Token使用效率明显低于Gemini-3.0-Pro[13],为了降低部署成本并减少推理时延,官方版DeepSeek-V3.2在训练中施加了更严格的Token约束[14] 模型基准测试表现对比 - 在AIME 2025基准测试中,DeepSeek-V3.2-Speciale的Pass@1分数为96.0,消耗23k Token,而Gemini-3.0 Pro分数为95.0,消耗15k Token[13] - 在HMMT Feb 2025测试中,DeepSeek-V3.2-Speciale获得99.2的高分,消耗27k Token,Gemini-3.0 Pro为97.5分,消耗16k Token[13] - 在CodeForces基准测试中,DeepSeek-V3.2-Speciale获得2701的评分,但消耗高达77k Token,而Gemini-3.0 Pro评分为2708,仅消耗22k Token[13] GRPO算法固有缺陷分析 - DeepSeek-V3.2 Speciale输出内容又长又啰嗦但最终仍然出错的问题,根源在于GRPO算法本身的固有缺陷[2] - 研究论文指出GRPO算法存在长度偏置,当优势函数为负值时,较长的错误响应所受惩罚更弱,导致策略在错误样本中偏向生成更长的回答[18] - 在DeepSeek-R1-Zero的训练过程中,模型的响应长度在整个训练阶段持续增长,这一现象在DeepSeek-V3.2 Speciale中仍然存在[16],DeepSeek-V3.2的技术报告显示,难度偏置已被优化,但长度偏置仍然保留[18] 用户反馈与性能指标 - 社区用户反馈,DeepSeek-V3.2 Speciale具备极强的推理能力,但Token消耗速度如喝水般迅速,显著高于同类模型[5] - 用户评价指出,如果DeepSeek-V3.2 Speciale的生成速度能从当前约30 tokens/s提升至100 tokens/s左右,其综合可用性和使用体验将获得大幅改善[5] - 在对比测试中,DeepSeek V3.2-Speciale的平均耗时为613秒,消耗34501 Token,而Gemini 3 Pro仅耗时113秒,消耗12116 Token[7] 行业技术发展动态 - 与Grok和Mistral对比,DeepSeek V3.2在输出Token方面存在明显延迟[10] - GRPO算法已成为大模型后训练的黄金范式,但其在理论和实际实现之间存在不一致性,在PPO的大多开源实现中加入了长度归一化,无意中引入了长度偏置[21] - DeepSeek研究者表示,Token效率仍将是未来一个至关重要的研究方向[14]
DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了
机器之心· 2025-12-04 08:18
DeepSeek-V3.2模型性能表现 - 在相同任务上,DeepSeek-V3.2 Speciale消耗77,000 Token,而Gemini仅消耗20,000 Token,Token使用效率为竞争对手的3倍以上[1] - DeepSeek-V3.2 Speciale生成速度约为30 tokens/s,用户期望提升至100 tokens/s左右以改善使用体验[6] - 在AAII基准测试中,DeepSeek V3.2推理模式下输出Token消耗达8600万,较上一版本的6200万明显增加[7] 模型基准测试数据对比 - DeepSeek V3.2-Speciale极限分数85.89,中位分数76.38,中位差距11.07%,测试成本仅2.90元[7] - 相比GPT-5(high)的87.18极限分数和37.71元测试成本,DeepSeek在成本效益方面表现突出[7] - 在CodeForces测试中,DeepSeek-V3.2-Speciale获得2701评分但消耗77,000 Token,而Gemini-3.0-Pro获得2708评分仅消耗22,000 Token[13] GRPO算法技术缺陷 - GRPO算法存在长度偏置问题,导致模型响应长度在整个训练阶段持续增长[18][20] - 算法存在难度偏置,当问题回报标准差较小时会被赋予更大梯度权重,忽视难度适中的实际问题[21][22] - 长度偏置问题导致模型在错误样本中偏向生成更长的回答,受到惩罚反而更弱[26] - DeepSeek-V3.2技术报告显示难度偏置已被优化,但长度偏置仍然保留[23] 公司技术发展策略 - 为降低部署成本并减少推理时延,官方版DeepSeek-V3.2训练过程中施加了更严格的Token约束[14] - Token效率被确认为未来至关重要的研究方向[14] - 公司在技术报告中坦诚承认Token使用效率问题并做出数据对比[12]
DeepSeek-V3.2被找出bug了:疯狂消耗token,答案还可能出错,研究人员:GRPO老问题没解决
36氪· 2025-12-04 02:21
模型性能与市场定位 - DeepSeek-V3.2模型,特别是其长思考增强版Speciale,以开源形式对闭源顶级模型构成了竞争压力[4] - 在解决相同复杂任务时,Speciale模型消耗的token数量显著高于竞争对手,例如Gemini仅使用2万个token,而Speciale需要花费7.7万个token[4] - 该模型允许生成极长的思维链,通过大量消耗token进行深度自我修正和探索,走的是一条“在超长上下文下持续扩展强化学习”的路线[14] 技术缺陷与算法问题 - DeepSeek-V3.2模型存在“浪费token”的问题,这是一个自DeepSeek-R1-Zero以来一直存在的“bug”[1][5] - 问题的根源被认为在于GRPO算法存在两个“隐藏偏见”[8] - 第一个是“长度偏见”:GRPO算法在计算奖励时会将答案长度纳入考量,导致短的错误答案被罚得更重,而长的错误答案惩罚较轻,这激励模型生成“又长又错”的答案来规避惩罚[8] - 第二个是“难度偏见”:算法会根据同一批题目得分的标准差调整权重,导致过于简单或困难的题目被过度关注,而中等难度的关键题目反而被忽略[9] - 根据研究,DeepSeek-V3.2已经通过新的优势值计算方式修正了“难度偏见”,但仍然保留了有偏的长度规范项,即“长度偏见”依然存在[10][11] 官方回应与成本考量 - DeepSeek官方技术报告坦承,token效率对于DeepSeek-V3.2而言仍然是一个挑战,模型通常需要生成更长的轨迹才能达到Gemini-3.0-Pro的输出质量[14] - 从输出成本角度看,DeepSeek-V3.2的价格仅为GPT-5的1/24,考虑到其百万token级别的输出,这一成本被认为尚可接受[14] - 有观点指出,DeepSeek模型的上下文长度维持在128K已久未提升,这可能与GPU资源有限有关[14]
DeepSeek-V3.2被找出bug了:疯狂消耗token,答案还可能出错,研究人员:GRPO老问题没解决
量子位· 2025-12-03 09:05
DeepSeek-V3.2模型性能分析 - 模型长思考增强版Speciale以开源姿态对闭源顶级模型构成竞争压力[4] - 模型采用"在超长上下文下持续扩展强化学习"的技术路线,通过允许生成极长思维链进行深度自我修正和探索[15][16] - 模型输出成本具有显著优势,价格仅为GPT-5的1/24[17] 模型存在的技术问题 - 主要问题是浪费token,在处理复杂任务时消耗token数偏多,可能出现"又长又错"的答案[2][4] - 具体表现为解决同一问题时,Gemini仅使用2万个token,而Speciale需要花费7.7万个token[5] - 该问题源自DeepSeek-R1-Zero以来系列模型一直存在的"bug"[6] GRPO算法缺陷分析 - 算法存在长度偏见:错误答案越长惩罚反而越轻,导致模型故意生成"又长又错"的答案来躲避惩罚[9][10][11] - 算法存在难度偏见:过度关注太简单或太难的题目,而忽略中等难度题目的训练,但中等难度题目才是提升能力的关键[12] - 尽管DeepSeek-V3.2-Speciale放宽了RL长度限制,但仍然保留了有偏的长度规范项[13][15] 技术资源限制 - 模型128K上下文长度长期未更新,与GPU资源有限有关[18] - DeepSeek官方报告承认token效率仍是挑战,模型需要生成长轨迹才能达到Gemini-3.0-Pro的输出质量[15]
多模态大模型强化学习训练框架 - EasyR1代码走读(GRPO)
自动驾驶之心· 2025-07-15 12:30
多模态强化学习框架EasyR1分析 - EasyR1是基于纯语言强化学习训练框架verl修改而来的多模态强化学习训练框架,支持Qwen2.5-VL等模型的微调 [1] - 框架采用GRPO算法进行训练,该算法不涉及Value Model,从而简化了训练流程 [45] - 代码仍在频繁更新中,文章分析的是2024年6月10日左右的代码版本 [1] 启动配置 - 启动脚本位于examples目录,通过python3 -m verl.trainer.main命令启动训练任务 [5] - 配置文件分为data、algorithm、worker和trainer四类配置项,参数可通过启动脚本覆盖 [6] - 数据配置包括训练集/验证集路径、prompt/answer/image键名、最大长度限制等参数 [9] 数据处理流程 - 数据集必须包含problem、answer和images三个key,支持json等多种格式 [40] - 数据加载使用datasets.load_dataset函数,支持本地文件和远程Hugging Face数据集 [41] - 图像处理支持<image>占位符,可拼接多张图片内容 [39] - prompt会通过jinjia模板进行格式化渲染,支持单轮问答场景 [38] 训练流程 - 训练分为init和fit两个阶段,fit阶段包含数据采样、奖励计算、优势估计和模型更新等步骤 [44] - GRPO算法中每个prompt会采样多条响应(n≥2),通过组内标准化计算优势 [81] - 训练使用KL散度约束模型更新,支持多种KL惩罚类型如low_var_kl等 [78] - 策略更新采用PPO算法,支持多epoch训练和梯度累积 [84] 性能优化 - 框架采用FSDP策略进行分布式训练,支持参数卸载以节省GPU内存 [16] - 数据在DP rank间进行平衡分配,确保每个rank获得相似数量的token [62] - 推理使用vLLM引擎,支持tensor并行和分块预填充等优化 [28] - 训练支持padding-free模式和Ulysses序列并行技术 [15]
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
机器之心· 2025-05-24 03:13
核心观点 - 文章深入分析了Kimi k1.5、OpenReasonerZero、DAPO和Dr. GRPO四篇论文的创新点,重点探讨了GRPO及其改进算法在推理模型中的应用 [1][3][10] - 当前AI领域推理和强化学习成为热门,但GRPO并非特殊算法,与其他RL算法关系密切 [6][8][11] - 行业正从价值函数转向直接估计优势值,强化学习范式进化是主要推动力 [20] Kimi k1.5 - Kimi k1.5是Kimi团队最新多模态大语言模型,采用强化学习训练,论文长达25页但未开放模型权重 [17][19] - 模型采用简单有效的强化学习框架,无需依赖蒙特卡洛树搜索等复杂技术 [17] - 团队强调提示策划的重要性,采用基于模型的方法评估提示难度 [22] - 训练方案包含SFT预热、长思维链和拒绝采样,后期使用在线策略镜像下降变体 [24] - 研究发现较大模型在token效率方面表现更好,但小模型通过长思维链也能达到相当性能 [29][31] OpenReasonerZero - 这是首篇展示在基础模型上通过RL取得出色结果的研究 [34] - 使用Qwen-32B基座模型达到DeepSeek论文中提到的Qwen-32B RL模型性能 [38] - 研究发现GRPO对其不起作用,使用带GAE的PPO算法效果更好 [42] - 移除KL惩罚能实现最优训练稳定性和最终性能 [44][45] DAPO - DAPO是对GRPO的改进算法,包括分离裁剪超参数、动态采样等创新点 [54][55][56] - 改进包括:两个不同裁剪超参数、移除平坦奖励样本、使用token级损失、管理过长生成 [54][55][56][57] - 建议从GRPO中移除KL散度惩罚以帮助学习 [59] - 通过消融实验显示模型保持更高熵(探索/随机性) [62] Dr. GRPO - 论文提出修改GRPO以改善学习动态,使生成长度增加较少情况下实现更强性能 [76][79] - 核心修改涉及GRPO实现中的常见做法,调整token优势分配方式 [80] - 移除问题级难度偏置,避免对高方差问题的惩罚 [81] - 比较Qwen 2.5、Llama 3.1和DeepSeek基础模型在数学问题上的表现 [85][86] 行业趋势 - 当前所有RL算法在实现层面高度相似,GRPO虽流行但变革聚焦核心维度 [15][16] - 业界逐渐转向直接估计优势值而非价值函数建模 [20] - 数据分布对强化学习效果起关键作用,提示策划和难度评估成为重点 [22][41] - 模型大小与性能关系显示大模型token效率更高,但小模型通过优化也能达到相当效果 [29][31]