阿里Qwen提出强化学习新算法GSPO
快讯·2025-07-27 15:20
强化学习算法创新 - 提出Group Sequence Policy Optimization (GSPO)算法以拓展强化学习能力 [1] - GSPO在序列级别定义重要性比率并进行裁剪、奖励和优化 [1] - 该算法区别于传统RL算法的工作机制 [1]
强化学习算法创新 - 提出Group Sequence Policy Optimization (GSPO)算法以拓展强化学习能力 [1] - GSPO在序列级别定义重要性比率并进行裁剪、奖励和优化 [1] - 该算法区别于传统RL算法的工作机制 [1]