RAGEN - 财报，业绩电话会，研报，新闻

RAGEN

搜索文档

机器之心· 2025-10-08 04:13

文章核心观点 - 提出名为Verlog的多轮强化学习框架，旨在解决AI智能体在长时程任务中面临的挑战，如奖励稀疏和历史冗长[2][3] - Verlog框架可将任务处理能力从传统方法的约10回合显著扩展至超过400回合，在复杂长期决策任务中具备独特优势[3] - 该框架在BabyAI、BabaIsAI和Crafter等高难度基准环境中得到验证，展现出稳定而高效的训练性能[3][16][19] 方法介绍 - 基础模型基于Qwen-2.5的Instruct变体构建，包括Qwen-2.5-3B/7B-Instruct型号[6] - 选择该模型的主要原因包括可与BALROG评估框架无缝集成，并允许研究者直接使用基准测试提示而无需大量修改[7] - 记忆机制采用仅保留最新n+1个回合的策略，而非将整个轨迹放入上下文窗口，对于3B模型在n=1或2时性能达到峰值[9] - 引入Dual Discounting GAE算法，将token与step解耦以鼓励智能体用更少的环境步数完成任务[11][12][14] 实验结果 - 在Crafter环境中使用8张H100 GPU对Qwen2.5-7B-Instruct模型训练约36小时[19] - 在BabyAI与BabaIsAI环境中使用4张A40 GPU对Qwen2.5-3B-Instruct模型训练约24小时[19] - 三个实验环境证明Verlog在长周期、稀疏奖励和可变episode长度条件下均展现稳定训练能力[19] - Crafter环境的回合长度范围在70到400步之间，平均约为190步，Verlog在此类挑战性环境中开箱即用[3] 框架优势总结 - 通过记忆机制和回合级抽象有效管理长交互历史信息[20] - 结合dual-discounting GAE和价值函数预训练增强稀疏奖励下的训练稳定性[20] - 利用固定回合批处理和自举式价值估计管理可变长度轨迹[23] - 通过针对性提示工程和默认动作替换使训练过程中超过95%的动作均为有效动作[23]

从现有主流 RL 库来聊聊RL Infra架构演进

自动驾驶之心· 2025-09-25 23:33

强化学习在大模型发展中的核心作用 - 强化学习已从辅助技术跃升为驱动大模型能力跃迁的核心动力正经历从单轮静态任务向多轮交互式智能体训练的关键范式转移目标是构建能在复杂动态环境中通过多步观察思考行动与反馈完成任务的智能体这是通往AGI的关键一步[2] - 强化学习正在重塑大模型能力边界不仅是弥补数据瓶颈的利器更是构建下一代通用智能体的核心方法论背后依赖日益成熟的RL基础设施生态[2] 现代RL基础设施架构范式 - 核心架构围绕Generator和Trainer两大组件 Generator负责让LLM与环境交互生成轨迹并计算奖励计算开销大设计灵活性和环境抽象能力至关重要 Trainer负责根据轨迹数据使用PPO和GRPO等算法更新模型参数性能取决于分布式训练后端如FSDP DeepSpeed Megatron[6] - 生成器-训练器架构配合Ray等分布式协调层构成大模型强化学习系统的黄金标准 RL训练计算成本极高涉及大规模并行推理和参数更新优秀RL库需高效稳定可扩展地协调这两个阶段[6] Primary Development框架 - TRL是Hugging Face官方推出的最开箱即用的RL框架更像训练器集合而非复杂分布式系统算法支持包括SFT PPO DPO GRPO IPO KTO Online DPO REINFORCE++等集成transformers库支持vLLM加速Rollout 训练后端依赖accelerate库支持DDP DeepSpeed ZeRO FSDP API简洁文档丰富适合快速原型和中小规模实验但不支持环境交互生成与训练耦合紧[9][10][14] - OpenRLHF由OpenLLMAI 字节网易等联合开发旨在提供高效可扩展的RLHF和Agentic RL框架训练后端基于DeepSpeed ZeRO-3和Auto Tensor Parallelism 代码结构清晰是许多二次开发框架的基础[11][15] - veRL由字节Seed团队开发是功能最全面算法支持最广泛的框架之一算法支持包括PPO GRPO GSPO ReMax REINFORCE++ RLOO PRIME DAPO DrGRPO等架构采用HybridFlow控制器支持多轮训练和工具调用目前生成与训练耦合后续规划异步解耦集成vLLM和SGLang等推理后端训练后端支持FSDP/FSDP2和Megatron-LM 奖励支持模型奖励和函数规则奖励如数学代码追求全能涵盖所有主流RL算法和应用场景是前沿算法研究和复杂任务如多模态多智能体实验的理想选择配置较复杂[16][22] - AReaL由蚂蚁开源专为大规模高吞吐推理模型RL设计核心是完全异步架构算法支持包括PPO GRPO REINFORCE++ RLOO DPO IPO KTO等架构支持异步Pipeline RLHF和异步Agentic RL模式后者通过Agent类API支持多轮对话深度集成vLLM用于高吞吐Rollout 核心创新是完全异步设计通过可中断Rollout Worker经验回放缓冲区和并行奖励服务将生成与训练彻底解耦使用SGLang进行Rollout Ray进行集群管理训练后端主要使用PyTorch FSDP 也支持Megatron 为追求极致训练效率和可扩展性而生其轻量版AReaL-lite提供更易用API[20][21][28] - NeMo-RL是NVIDIA官方推出的面向生产的RL框架集成在NeMo生态系统中与NVIDIA硬件GPU和软件栈CUDA TensorRT深度集成提供从RM训练到PPO的端到端Pipeline 设计优雅接口定义清晰性能和扩展性兼顾[24][29] - ROLL是阿里开源专注于大规模LLM RL的框架强调异步和Agentic能力算法支持集成了GRPO PPO REINFORCE++ TOPR RAFT++ GSPO等多种先进RL算法架构采用基于Ray的多角色分布式设计将策略生成价值评估奖励计算等任务解耦到独立Worker角色中实现灵活资源调度异步训练和复杂任务编排深度集成SGLang和vLLM作为高性能推理后端加速策略生成Rollout 训练后端主要基于DeepSpeed ZeRO和Megatron-LM 5D并行未来支持FSDP2 奖励通过模块化奖励工作者RewardWorker处理奖励计算支持验证器沙盒LLM-as-judge等多种奖励源构建灵活奖励路由机制面向多样化用户高度可配置接口丰富[30][36] - slime由清华智谱开源是轻量级专注于将SGLang与Megatron无缝连接的框架架构强调可扩展性和生产级编排支持异步Rollout非Colocate放置等训练后端支持Megatron-Core和DTensor FSDP2 集成支持使用TensorRT-LLM和vLLM进行rollout 通过自定义数据生成接口和服务端引擎实现任意训练数据生成流程支持异步训练和Agentic工作流追求极简主义与高性能[34][35][40] Secondary Development框架 - Agentic RL智能体强化学习框架包括verl-agent基于veRL构建专门为Agentic RL优化支持异步Rollout和训练以及agent-lightning实现训练与推理解耦更容易支持多智能体训练关键技术包括异步生成经验回放环境接口标准化[46][47][49][50][52] - Multimodal RL多模态强化学习框架包括VLM-R1和EasyR1基于veRL开发用于训练视觉语言推理模型以及DanceGRPO专门用于扩散模型如文生图的RL训练关键技术包括多模态数据加载器跨模态奖励设计如CLIP分数针对扩散模型的特殊采样策略ODE/SDE转换[54][55][57][58] - Multi-Agent RL多智能体强化学习框架包括MARTI由清华C3I提出的首个高性能开源LLM多智能体强化训练与推理框架通过统一框架整合多智能体推理与强化学习结合高性能引擎与灵活架构为复杂协作任务提供高效可扩展解决方案兼容单智能体RL框架如OpenRLHF veRL 支持vLLM 以及Agent-Lightning其解耦设计便于扩展到多智能体场景关键技术包括集中训练分散执行CTDE基于自然语言的信用分配如LLaMAC多智能体策略优化如MAGRPO[60][62][63] RL基础设施发展趋势 - 标准化与模块化 RL基础设施正从手工作坊走向标准化流水线框架设计越来越模块化将Rollout Reward Train等环节解耦便于复用和扩展库不再绑定单一推理后端支持vLLM SGLang等[65] - 异步化成为大规模RL必备特性为应对Rollout和Train之间巨大计算不对称性异步架构如AReaL OpenRLHF slime等已成为关键[65] - 推理引擎至关重要 vLLM和SGLang等高性能推理引擎的出现极大加速了Rollout过程成为现代RL框架标配[66] - 从RLHF向Agentic RL演进早期库如TRL主要为单步任务设计新一代库内置强大环境抽象以支持复杂多步交互[66] - 分布式训练框架选择 Megatron-LM在超大规模模型训练中性能最佳 FSDP/FSDP2因与PyTorch集成好广受欢迎 DeepSpeed在内存优化上表现出色成熟库通常支持多种方案[66] - 场景驱动的二次开发通用框架如veRL OpenRLHF为生态奠定基础针对特定场景如多模态多智能体GUI的二次开发框架解决垂直领域独特挑战[66] - Orchestrator重要性由于RL涉及多个分布式组件如训练框架推理框架环境使用Ray等进行任务编排资源管理和容错已成为行业共识[66]

AI 智能体老“崩”？DeepSeek 前员工联手李飞飞等大佬开源新框架，教会模型真正推理

AI前线· 2025-04-24 03:03

AI智能体发展现状 - 2025年被视为"AI智能体元年"，但目前64.2%的企业AI智能体仍处于试点阶段，仅6.4%表现超出预期[1][2] - 行业普遍面临智能体从实验室到规模化应用的过渡难题，24.8%的企业反馈现有方案需高投入[2] RAGEN系统技术突破 - 由王子涵团队开发的RAGEN系统采用StarPO强化学习框架，通过"状态-思维-动作-奖励"策略优化实现多轮交互训练[5][7] - 系统创新性地引入两阶段训练：rollout阶段生成完整交互序列，update阶段基于归一化奖励更新参数[7] - 使用阿里巴巴Qwen系列开源模型作为基础，确保实验可复现性并支持符号任务对比[9] 训练稳定性解决方案 - 发现"回声陷阱"现象：模型在训练后期倾向于复制高奖励回答导致推理能力退化[12] - StarPO-S框架新增三项机制：基于不确定性的rollout筛选、移除KL惩罚项、非对称PPO剪裁，使训练崩溃率显著降低[19] - 在Bandit/Sokoban/Frozen Lake三个测试环境中验证，奖励水平平均提升30%以上[17][19] 企业应用挑战 - 任务多样性、交互粒度和rollout新鲜度被确认为影响训练效果的三大关键因素[22] - 当前奖励机制存在"重结果轻过程"缺陷，需优化奖励设计逻辑以维持长期推理能力[23][24] - 符号类任务到真实业务场景的迁移仍存挑战，如发票处理等场景需重新设计环境[24] 开源生态建设 - RAGEN系统及StarPO/StarPO-S框架已在GitHub开源，采用MIT协议[10][14] - 项目获得微软、斯坦福等机构支持，技术路线可能重塑大模型训练范式[2][9]

AI 智能体老“崩”？DeepSeek 前员工联手李飞飞等大佬开源新框架，教会模型真正推理

AI前线· 2025-04-24 03:03

AI智能体发展现状 - 2025年被普遍认为是"AI智能体元年"，基于大语言模型（如OpenAI、Anthropic、Google、DeepSeek）的智能体系统将专注于特定任务[2] - 当前64.2%的企业AI智能体仍处于试点阶段（"pilot purgatory"），仅4.6%接近规模化应用[3][4] - 行业面临核心挑战：强化学习训练易崩溃，模型易陷入重复输出相似内容的"回声陷阱"现象[18][19] RAGEN系统技术突破 - 由李飞飞团队联合西北大学、微软等机构开发，聚焦提升AI在企业应用中的稳定性和可靠性[5] - 采用StarPO强化学习框架，通过"状态-思维-动作-奖励"策略优化，强调完整决策路径训练而非单次回答优化[11] - 开源框架包含三项创新机制：优先选择模型"犹豫"的交互序列、移除KL惩罚项、非对称PPO剪裁，显著提升训练稳定性[27][28][29][30] - 实验基于阿里巴巴Qwen系列开源模型（1.5/2.5版本），确保结果可复现性[14] 测试环境与评估方法 - 设计三类符号化测试环境：Bandit（风险收益推理）、Sokoban（规划能力）、Frozen Lake（适应性思考）[23] - Bandit任务要求模型通过类比推理（如将"龙"关联力量、"凤凰"关联希望）预测奖励分布，而非依赖直接概率数据[25][26] - 测试环境剥离现实先验知识干扰，纯粹评估训练所得策略的有效性[24] 企业应用现实挑战 - 训练效果三大关键因素：情境多样性、交互粒度（支持多动作/轮）、rollout新鲜度（数据与当前策略同步）[33][34] - 当前奖励机制缺陷：过度关注结果正确性而忽视推理过程质量，导致多轮任务中推理能力退化[36][38] - 技术局限性：长任务场景仍可能崩溃，符号类问题解决方案向真实业务（如发票处理）迁移存在不确定性[40] 行业影响与开源生态 - RAGEN标志着向"具备自主推理能力智能体"迈进，重构大模型训练边界认知[41] - 项目采用MIT协议开源，GitHub已获1.4k星、102分支，主要代码为Python（88.7%）和Shell（11.3%）[16][17] - 核心开发者王子涵（前DeepSeek研究员）专注大语言模型自主性与长文本理解，曾参与DeepSeek-V2项目[6]

Artificial Intelligence

强化学习

AI 智能体

Artificial Intelligence

StarPO

StarPO - S

Artificial Intelligence

强化学习

AI 智能体

Artificial Intelligence

StarPO

StarPO - S