GRPO - 财报，业绩电话会，研报，新闻

GRPO

搜索文档

自动驾驶之心· 2025-09-12 16:03

GRPO策略类型分析 - GRPO最初设计和常用实现是在线策略(on-policy)方法其优势估计依赖于当前策略生成的样本[3][6] - 通过重要性采样等技术可扩展为离线策略(off-policy)版本已有工作研究这种扩展在样本效率和稳定性方面的权衡[3][4] - 原始GRPO使用当前策略生成的一组候选完成来计算组内相对优势并在此批次上构造类似PPO的代理目标更新策略[5][6] 重要性采样技术 - 重要性采样是离线策略评估的核心方法通过行为策略数据评估目标策略价值[8] - 核心公式使用重要性权重修正分布差异单步权重为$w_t=\frac{\pi_t(a_t|s_t)}{\pi_b(a_t|s_t)}$ 轨迹权重为$W_T=\prod_{t=0}^T w_t$[12][13] - 加权重要性采样通过归一化权重降低方差公式为${\hat{V}}^{\pi_t}(s_0)=\sum_{i=1}^N\left(\frac{W_T^{(i)}}{\sum_{j=1}^N W_T^{(j)}}\right)\cdot G_0^{(i)}$[16] GSPO与DAPO算法改进 - GSPO解决GRPO/PPO在长序列训练中的高方差问题将重要性比率提升到序列级并做长度归一化[18][22] - DAPO针对长思维链训练提出四项工程技术：非对称裁剪动态采样 token级策略梯度损失和过长奖励整形[20][24] - GSPO目标函数为$J_{\mathrm{GSPO}}(\theta)=\mathbb{E}_{x\sim D,\{y_i\}\sim\pi_{\mathrm{id}}}\left[\frac{1}{G}\sum_{i=1}^G\operatorname*{min}\Bigl(s_i(\theta)\hat{A}_i,\mathrm{clip}(s_i(\theta),1-\varepsilon,1+\varepsilon)\hat{A}_i\Bigr)\right]$[23] 熵崩溃问题与解决方案 - 熵崩溃指策略熵急速下降导致确定性输出在训练阶段需要避免以保持探索能力[27][33] - 解决方案包括熵正则化 KL约束非对称裁剪动态采样和序列级重要性比率[32][37] - 监控指标包括策略熵曲线 KL距离变化和奖励分布特征[35][36] 奖励劫持与熵崩溃关系 - 奖励劫持是目标错位问题熵崩溃是策略行为失衡症状二者常相互强化形成恶性循环[41][51] - 奖励劫持导致策略快速确定化熵崩溃使系统难以跳出奖励劫持的局部最优[43][44] - 解决方案需从奖励设计和训练稳定性两端入手包括修正奖励函数增加惩罚项和使用多样化评价信号[47][51] MLA加速推理技术 - MLA通过低秩潜在向量压缩Key/Value 只缓存潜在向量而非完整K/V[52][55] - 在内存带宽受限场景可减少45% KV缓存内存实现1.3-1.8倍推理加速[52][64] - 技术实现包括潜在向量压缩和实时上投影计算公式为$C_t = X_t W_C$ $K = C W_{K\_up}$ $V = C W_{V\_up}$[54][61]

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

机器之心· 2025-06-22 04:26

强化学习技术发展 - 强化学习已成为LLM领域不可或缺的核心技术覆盖大模型对齐、推理模型训练及智能体强化学习等方向 [1] - Unsloth团队发布强化学习教程从吃豆人案例切入系统讲解RLHF、PPO至GRPO的技术演进路径其开源项目GitHub星数超4万 [2][5] - GRPO（组相对策略优化）由DeepSeek开发通过移除价值模型、采用多轮采样统计替代传统PPO架构显著降低显存消耗 [22][25][26] GRPO技术原理 - GRPO核心创新在于用采样答案的Z分数标准化替代价值模型通过计算8-16次生成结果的平均奖励及标准差生成优势值A [27][28] - 技术优势体现在：支持自定义奖励函数适用于数学验证/代码执行等场景显存需求最低仅需5GB（1.5B参数模型） [30][44] - 训练机制采用多答案生成策略（每问题8-16变体）通过奖励函数动态调整权重需300-1000训练步数见效 [45][49] 应用场景与案例 - 适用领域包括数学推理（GSM8K数据集）、邮件自动化、法律医学等专业任务准确率提升依赖可验证的阶段性奖励设计 [30][55][61] - Unsloth提供实战案例：在Qwen3基础模型上实现推理功能通过邻近度评分、XML标签计数等定制化奖励函数优化输出质量 [62] - 典型奖励函数设计包含关键词匹配（+1）、格式合规性（-1）、答案接近度（梯度奖励）等多维度评估体系 [58][59][60] 实施要点与资源 - 硬件要求：17B参数模型需15GB显存推荐使用QLoRA 4-bit量化技术降低资源消耗 [44][49] - 关键成功要素包括：500+行训练数据、12小时以上训练时长、基于指令微调的预训练模型（概率非零） [41][49][57] - 学习资源涵盖Nathan Lambert的RLHF专著、Yannic Kilcher视频解析及Unsloth提供的Colab实战笔记本 [63]

Artificial Intelligence

Artificial Intelligence

ChatGPT