SkyRL - 财报，业绩电话会，研报，新闻

SkyRL

搜索文档

自动驾驶之心· 2025-09-25 23:33

强化学习在大模型发展中的核心作用 - 强化学习已从辅助技术跃升为驱动大模型能力跃迁的核心动力正经历从单轮静态任务向多轮交互式智能体训练的关键范式转移目标是构建能在复杂动态环境中通过多步观察思考行动与反馈完成任务的智能体这是通往AGI的关键一步[2] - 强化学习正在重塑大模型能力边界不仅是弥补数据瓶颈的利器更是构建下一代通用智能体的核心方法论背后依赖日益成熟的RL基础设施生态[2] 现代RL基础设施架构范式 - 核心架构围绕Generator和Trainer两大组件 Generator负责让LLM与环境交互生成轨迹并计算奖励计算开销大设计灵活性和环境抽象能力至关重要 Trainer负责根据轨迹数据使用PPO和GRPO等算法更新模型参数性能取决于分布式训练后端如FSDP DeepSpeed Megatron[6] - 生成器-训练器架构配合Ray等分布式协调层构成大模型强化学习系统的黄金标准 RL训练计算成本极高涉及大规模并行推理和参数更新优秀RL库需高效稳定可扩展地协调这两个阶段[6] Primary Development框架 - TRL是Hugging Face官方推出的最开箱即用的RL框架更像训练器集合而非复杂分布式系统算法支持包括SFT PPO DPO GRPO IPO KTO Online DPO REINFORCE++等集成transformers库支持vLLM加速Rollout 训练后端依赖accelerate库支持DDP DeepSpeed ZeRO FSDP API简洁文档丰富适合快速原型和中小规模实验但不支持环境交互生成与训练耦合紧[9][10][14] - OpenRLHF由OpenLLMAI 字节网易等联合开发旨在提供高效可扩展的RLHF和Agentic RL框架训练后端基于DeepSpeed ZeRO-3和Auto Tensor Parallelism 代码结构清晰是许多二次开发框架的基础[11][15] - veRL由字节Seed团队开发是功能最全面算法支持最广泛的框架之一算法支持包括PPO GRPO GSPO ReMax REINFORCE++ RLOO PRIME DAPO DrGRPO等架构采用HybridFlow控制器支持多轮训练和工具调用目前生成与训练耦合后续规划异步解耦集成vLLM和SGLang等推理后端训练后端支持FSDP/FSDP2和Megatron-LM 奖励支持模型奖励和函数规则奖励如数学代码追求全能涵盖所有主流RL算法和应用场景是前沿算法研究和复杂任务如多模态多智能体实验的理想选择配置较复杂[16][22] - AReaL由蚂蚁开源专为大规模高吞吐推理模型RL设计核心是完全异步架构算法支持包括PPO GRPO REINFORCE++ RLOO DPO IPO KTO等架构支持异步Pipeline RLHF和异步Agentic RL模式后者通过Agent类API支持多轮对话深度集成vLLM用于高吞吐Rollout 核心创新是完全异步设计通过可中断Rollout Worker经验回放缓冲区和并行奖励服务将生成与训练彻底解耦使用SGLang进行Rollout Ray进行集群管理训练后端主要使用PyTorch FSDP 也支持Megatron 为追求极致训练效率和可扩展性而生其轻量版AReaL-lite提供更易用API[20][21][28] - NeMo-RL是NVIDIA官方推出的面向生产的RL框架集成在NeMo生态系统中与NVIDIA硬件GPU和软件栈CUDA TensorRT深度集成提供从RM训练到PPO的端到端Pipeline 设计优雅接口定义清晰性能和扩展性兼顾[24][29] - ROLL是阿里开源专注于大规模LLM RL的框架强调异步和Agentic能力算法支持集成了GRPO PPO REINFORCE++ TOPR RAFT++ GSPO等多种先进RL算法架构采用基于Ray的多角色分布式设计将策略生成价值评估奖励计算等任务解耦到独立Worker角色中实现灵活资源调度异步训练和复杂任务编排深度集成SGLang和vLLM作为高性能推理后端加速策略生成Rollout 训练后端主要基于DeepSpeed ZeRO和Megatron-LM 5D并行未来支持FSDP2 奖励通过模块化奖励工作者RewardWorker处理奖励计算支持验证器沙盒LLM-as-judge等多种奖励源构建灵活奖励路由机制面向多样化用户高度可配置接口丰富[30][36] - slime由清华智谱开源是轻量级专注于将SGLang与Megatron无缝连接的框架架构强调可扩展性和生产级编排支持异步Rollout非Colocate放置等训练后端支持Megatron-Core和DTensor FSDP2 集成支持使用TensorRT-LLM和vLLM进行rollout 通过自定义数据生成接口和服务端引擎实现任意训练数据生成流程支持异步训练和Agentic工作流追求极简主义与高性能[34][35][40] Secondary Development框架 - Agentic RL智能体强化学习框架包括verl-agent基于veRL构建专门为Agentic RL优化支持异步Rollout和训练以及agent-lightning实现训练与推理解耦更容易支持多智能体训练关键技术包括异步生成经验回放环境接口标准化[46][47][49][50][52] - Multimodal RL多模态强化学习框架包括VLM-R1和EasyR1基于veRL开发用于训练视觉语言推理模型以及DanceGRPO专门用于扩散模型如文生图的RL训练关键技术包括多模态数据加载器跨模态奖励设计如CLIP分数针对扩散模型的特殊采样策略ODE/SDE转换[54][55][57][58] - Multi-Agent RL多智能体强化学习框架包括MARTI由清华C3I提出的首个高性能开源LLM多智能体强化训练与推理框架通过统一框架整合多智能体推理与强化学习结合高性能引擎与灵活架构为复杂协作任务提供高效可扩展解决方案兼容单智能体RL框架如OpenRLHF veRL 支持vLLM 以及Agent-Lightning其解耦设计便于扩展到多智能体场景关键技术包括集中训练分散执行CTDE基于自然语言的信用分配如LLaMAC多智能体策略优化如MAGRPO[60][62][63] RL基础设施发展趋势 - 标准化与模块化 RL基础设施正从手工作坊走向标准化流水线框架设计越来越模块化将Rollout Reward Train等环节解耦便于复用和扩展库不再绑定单一推理后端支持vLLM SGLang等[65] - 异步化成为大规模RL必备特性为应对Rollout和Train之间巨大计算不对称性异步架构如AReaL OpenRLHF slime等已成为关键[65] - 推理引擎至关重要 vLLM和SGLang等高性能推理引擎的出现极大加速了Rollout过程成为现代RL框架标配[66] - 从RLHF向Agentic RL演进早期库如TRL主要为单步任务设计新一代库内置强大环境抽象以支持复杂多步交互[66] - 分布式训练框架选择 Megatron-LM在超大规模模型训练中性能最佳 FSDP/FSDP2因与PyTorch集成好广受欢迎 DeepSpeed在内存优化上表现出色成熟库通常支持多种方案[66] - 场景驱动的二次开发通用框架如veRL OpenRLHF为生态奠定基础针对特定场景如多模态多智能体GUI的二次开发框架解决垂直领域独特挑战[66] - Orchestrator重要性由于RL涉及多个分布式组件如训练框架推理框架环境使用Ray等进行任务编排资源管理和容错已成为行业共识[66]