Workflow
可复现的稳定RL训练
icon
搜索文档
首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合
量子位· 2025-09-27 01:30
SGLang团队 投稿 量子位 | 公众号 QbitAI 开源框架实现100%可复现的稳定RL训练! 下图是基于Qwen3-8B进行的重复实验。 两次运行,一条曲线,实现了结果的完美重合,为需要高精度复现的实验场景提供了可靠保障 。 这就是 SGLang团队联合slime团队 的最新开源成果。 近期,Thinking Machines Lab (由 OpenAI 前 CTO Mira Murati 创立) 发布了一篇文章——《克服LLM推理中的不确定性》,指出问题的 核心在于 缺乏批次不变性 (batch invariance)。 自从这篇博客发布后,业界反响热烈,一直期待开源推理引擎能实现稳定可用的确定性推理,或者更进一步,实现完全可复现的RL训练。而 现在,SGLang和slime一起给出了答案。 SGLang团队在Thinking Machines Lab发布的批次不变算子基础之上,通过定制一系列注意力算子和采样逻辑, 实现了完全确定性推理 。 该实现同时保持与 分块预填充 (chunked prefill)、CUDA Graph、Radix Cache 和非贪婪采样 (non-greedy sampl ...