Workflow
Group Sequence Policy Optimization (GSPO) 算法
icon
搜索文档
阿里Qwen提出强化学习新算法GSPO
快讯· 2025-07-27 15:20
强化学习算法创新 - 提出Group Sequence Policy Optimization (GSPO)算法以拓展强化学习能力 [1] - GSPO在序列级别定义重要性比率并进行裁剪、奖励和优化 [1] - 该算法区别于传统RL算法的工作机制 [1]