AReaL

搜索文档
从现有主流 RL 库来聊聊RL Infra架构演进
自动驾驶之心· 2025-09-25 23:33
强化学习在大模型发展中的核心作用 - 强化学习已从辅助技术跃升为驱动大模型能力跃迁的核心动力 正经历从单轮静态任务向多轮交互式智能体训练的关键范式转移 目标是构建能在复杂动态环境中通过多步观察思考行动与反馈完成任务的智能体 这是通往AGI的关键一步[2] - 强化学习正在重塑大模型能力边界 不仅是弥补数据瓶颈的利器 更是构建下一代通用智能体的核心方法论 背后依赖日益成熟的RL基础设施生态[2] 现代RL基础设施架构范式 - 核心架构围绕Generator和Trainer两大组件 Generator负责让LLM与环境交互生成轨迹并计算奖励 计算开销大 设计灵活性和环境抽象能力至关重要 Trainer负责根据轨迹数据使用PPO和GRPO等算法更新模型参数 性能取决于分布式训练后端如FSDP DeepSpeed Megatron[6] - 生成器-训练器架构配合Ray等分布式协调层构成大模型强化学习系统的黄金标准 RL训练计算成本极高 涉及大规模并行推理和参数更新 优秀RL库需高效稳定可扩展地协调这两个阶段[6] Primary Development框架 - TRL是Hugging Face官方推出的最开箱即用的RL框架 更像训练器集合而非复杂分布式系统 算法支持包括SFT PPO DPO GRPO IPO KTO Online DPO REINFORCE++等 集成transformers库 支持vLLM加速Rollout 训练后端依赖accelerate库 支持DDP DeepSpeed ZeRO FSDP API简洁文档丰富 适合快速原型和中小规模实验 但不支持环境交互 生成与训练耦合紧[9][10][14] - OpenRLHF由OpenLLMAI 字节 网易等联合开发 旨在提供高效可扩展的RLHF和Agentic RL框架 训练后端基于DeepSpeed ZeRO-3和Auto Tensor Parallelism 代码结构清晰 是许多二次开发框架的基础[11][15] - veRL由字节Seed团队开发 是功能最全面算法支持最广泛的框架之一 算法支持包括PPO GRPO GSPO ReMax REINFORCE++ RLOO PRIME DAPO DrGRPO等 架构采用HybridFlow控制器 支持多轮训练和工具调用 目前生成与训练耦合 后续规划异步解耦 集成vLLM和SGLang等推理后端 训练后端支持FSDP/FSDP2和Megatron-LM 奖励支持模型奖励和函数规则奖励如数学代码 追求全能 涵盖所有主流RL算法和应用场景 是前沿算法研究和复杂任务如多模态多智能体实验的理想选择 配置较复杂[16][22] - AReaL由蚂蚁开源 专为大规模高吞吐推理模型RL设计 核心是完全异步架构 算法支持包括PPO GRPO REINFORCE++ RLOO DPO IPO KTO等 架构支持异步Pipeline RLHF和异步Agentic RL模式 后者通过Agent类API支持多轮对话 深度集成vLLM用于高吞吐Rollout 核心创新是完全异步设计 通过可中断Rollout Worker经验回放缓冲区和并行奖励服务将生成与训练彻底解耦 使用SGLang进行Rollout Ray进行集群管理 训练后端主要使用PyTorch FSDP 也支持Megatron 为追求极致训练效率和可扩展性而生 其轻量版AReaL-lite提供更易用API[20][21][28] - NeMo-RL是NVIDIA官方推出的面向生产的RL框架 集成在NeMo生态系统中 与NVIDIA硬件GPU和软件栈CUDA TensorRT深度集成 提供从RM训练到PPO的端到端Pipeline 设计优雅接口定义清晰 性能和扩展性兼顾[24][29] - ROLL是阿里开源专注于大规模LLM RL的框架 强调异步和Agentic能力 算法支持集成了GRPO PPO REINFORCE++ TOPR RAFT++ GSPO等多种先进RL算法 架构采用基于Ray的多角色分布式设计 将策略生成价值评估奖励计算等任务解耦到独立Worker角色中 实现灵活资源调度异步训练和复杂任务编排 深度集成SGLang和vLLM作为高性能推理后端加速策略生成Rollout 训练后端主要基于DeepSpeed ZeRO和Megatron-LM 5D并行 未来支持FSDP2 奖励通过模块化奖励工作者RewardWorker处理奖励计算 支持验证器沙盒LLM-as-judge等多种奖励源 构建灵活奖励路由机制 面向多样化用户 高度可配置接口丰富[30][36] - slime由清华智谱开源 是轻量级专注于将SGLang与Megatron无缝连接的框架 架构强调可扩展性和生产级编排 支持异步Rollout非Colocate放置等 训练后端支持Megatron-Core和DTensor FSDP2 集成支持使用TensorRT-LLM和vLLM进行rollout 通过自定义数据生成接口和服务端引擎实现任意训练数据生成流程 支持异步训练和Agentic工作流 追求极简主义与高性能[34][35][40] Secondary Development框架 - Agentic RL智能体强化学习框架包括verl-agent基于veRL构建 专门为Agentic RL优化 支持异步Rollout和训练 以及agent-lightning实现训练与推理解耦 更容易支持多智能体训练 关键技术包括异步生成经验回放环境接口标准化[46][47][49][50][52] - Multimodal RL多模态强化学习框架包括VLM-R1和EasyR1基于veRL开发 用于训练视觉语言推理模型 以及DanceGRPO专门用于扩散模型如文生图的RL训练 关键技术包括多模态数据加载器跨模态奖励设计如CLIP分数针对扩散模型的特殊采样策略ODE/SDE转换[54][55][57][58] - Multi-Agent RL多智能体强化学习框架包括MARTI由清华C3I提出的首个高性能开源LLM多智能体强化训练与推理框架 通过统一框架整合多智能体推理与强化学习 结合高性能引擎与灵活架构 为复杂协作任务提供高效可扩展解决方案 兼容单智能体RL框架如OpenRLHF veRL 支持vLLM 以及Agent-Lightning其解耦设计便于扩展到多智能体场景 关键技术包括集中训练分散执行CTDE基于自然语言的信用分配如LLaMAC多智能体策略优化如MAGRPO[60][62][63] RL基础设施发展趋势 - 标准化与模块化 RL基础设施正从手工作坊走向标准化流水线 框架设计越来越模块化 将Rollout Reward Train等环节解耦 便于复用和扩展 库不再绑定单一推理后端 支持vLLM SGLang等[65] - 异步化成为大规模RL必备特性 为应对Rollout和Train之间巨大计算不对称性 异步架构如AReaL OpenRLHF slime等已成为关键[65] - 推理引擎至关重要 vLLM和SGLang等高性能推理引擎的出现极大加速了Rollout过程 成为现代RL框架标配[66] - 从RLHF向Agentic RL演进 早期库如TRL主要为单步任务设计 新一代库内置强大环境抽象以支持复杂多步交互[66] - 分布式训练框架选择 Megatron-LM在超大规模模型训练中性能最佳 FSDP/FSDP2因与PyTorch集成好广受欢迎 DeepSpeed在内存优化上表现出色 成熟库通常支持多种方案[66] - 场景驱动的二次开发 通用框架如veRL OpenRLHF为生态奠定基础 针对特定场景如多模态多智能体GUI的二次开发框架解决垂直领域独特挑战[66] - Orchestrator重要性由于RL涉及多个分布式组件如训练框架推理框架环境 使用Ray等进行任务编排资源管理和容错已成为行业共识[66]
外滩大会观察:中国“小虎队”勾勒科技新图景
环球网· 2025-09-11 10:23
中国年轻科技创业者群体特征 - 平均年龄不足30岁 被称为"科创小虎队" 涵盖1985-2000年出生人群[1] - 具备四重核心基因:技术直觉如母语 跨维度思考锐度 产业落地紧迫感 全球技术应用视野[11] - 通过外滩大会等平台集结 参与四十余场论坛 三大技术赛事 一场创投活动[14] 前沿技术突破 - 中国科学院团队实现403秒放电实验突破 专注FRC可控核聚变技术研发与商业化[2] - 电子科技大学研发SlicerDMRI平台 将核磁共振成像时间从90分钟压缩至8分钟[2] - 中国传媒大学开发"白杨智鉴"音视频鉴伪平台 在AI安全赛道获得季军[3] 人工智能领域创新 - DeepWisdom开发全自动AI中台 支持图像 音频 视频 文本 表格五种模态AI设计与生产[9] - 清华大学与蚂蚁研究院合作推出AReaL开源强化学习系统 专为大规模推理模型打造[5] - IDEA研究院开源AI辅助编程工具auto-coder系列 获GitCode2024年度十大开源项目[8] 开源社区贡献 - CAMEL和OWL项目获GitHub超万星标 推动智能体从聊天工具向自主系统蜕变[6] - Deepseek开源R1模型引发全球技术开源关注中国[9] - 开源社区参与规模近2万人 其中00后占比超过一半 最年轻参赛者为初中生[1] 产业应用落地 - 宇树科技以四足机器人技术为核心 推动机器人从实验室走向现实应用场景[3] - Pokee.ai打造一站式通用Agent平台 基于强化学习模型改变企业工作流[10] - 汗青工作室AI歌手Yuri单曲全网播放量突破700万次 与国际一线品牌达成合作[10] 学术研究影响 - 加州大学圣地亚哥分校教授论文被引用近8万次 领导开发全球首个大规模3D数据集ShapeNet[5] - 电子科技大学教授被ExpertScape评为弥散磁共振领域全球Top1%专家[2] - 开源社区CAMEL-AI核心贡献者提出"通用Agent存在规模定律"[6]
在OpenAI炼Agent一年半,回国做出首个开源Agent训练框架!这个30岁清华天才却说:创业不是技术命
AI前线· 2025-08-23 05:32
吴翼个人背景与职业经历 - 吴翼拥有姚班、伯克利、OpenAI、清华等亮眼背景,是ACM世界奖牌得主和IOI教练,曾亲历Facebook 2012崛起、字节跳动2016-2018高速成长期以及OpenAI爆火前关键阶段 [2] - 创立的边塞科技在2024年被蚂蚁收购,团队4年规模化强化学习成果积累至开源项目AReaL,这是一个完全异步的强化学习训练框架,专为大型推理模型设计,在Github已收获2.4k stars [2] - AReaL完全围绕Agent打造,定位独特,自称没有竞品 [2] OpenAI工作经历与决策文化 - 加入OpenAI源于Google Headcount限制,OpenAI作为非盈利机构无此限制,面试后第二周即获录用 [4] - OpenAI内部以evidence驱动决策,强调bottoms-up、快速迭代、无master plan的文化,研究员被当作mini-CEO [12] - GPT系列工作较bottom up,如GPT早期由Alec Recford一人主导,ChatGPT原型几人开发后爆火,不在OpenAI原计划内 [12] - 团队目标明确后不过度规划,激进寻找evidence并调整迭代,资源富裕与否不影响组织逻辑,AI时代放大穷团队能力 [13] - Codex团队7周从0到1推出产品,体现创业精神,但创新是长跑,需慢跑寻找evidence后冲刺,盲目冲刺可能错过evidence [14][15] 强化学习与竞赛观点 - ICPC、IOI等竞赛被类比为sports programming,类似电子竞技,涉及技巧和心理因素,非纯粹算法思维和编程速度考验 [6] - 大模型在IMO、IOI等竞赛挂零因模型未ready即推出,通用推理模型如Google/OpenAI已实现IMO金牌,专用模型如字节也取得不错成绩,大模型攻克竞赛是迟早的事 [6] - Gemini和OpenAI在IMO夺金明确归功于RL训练,竞赛未来参考围棋/Dota发展,因AI出现可能产生新规定和训练方式变革 [7] 创业经历与行业观察 - 中国创业公司几乎无机会走OpenAI路线,创业需看客观机会和势,非主观导向,当前中国非技术创业好时机,纯AI技术创业需慎重 [19][25] - 边塞科技创业期间困扰多属人性层面,非技术或商业问题,团队私下交流多,强调共同做大蛋糕而非分蛋糕 [27] - 创业非技术命题,时间窗口关键,决策抓住时间点即成功,错过非主观错误,建议多尝试以提高概率 [28] - 硅谷资源更多,对技术创业者更友好,国内创业是身心灵修炼场,中国互联网时代创造过奇迹,AI时代仍有机会 [17] AReaL框架与技术路线 - AReaL是面向大模型智能体训练的强化学习框架,目标让人更快训练出更好Agent模型,一切围绕Agent设计,自称无竞品 [8][36] - 团队从2020年开始做开源规模化强化学习工作,从MAPPO、SRL、ReaLHF到AReaL一脉相承,均围绕RL scaling [34][35] - 好的RL框架需好且快(产出SOTA模型且快)和好用(用户简单修改代码完成定制),AReaL-lite发布后实现全面重构 [37] - 开源RL训练框架基本是中国人天下,但头部公司如OpenAI、Anthropic有更好infra和团队,资源更优 [38] - AReaL围绕Agent打造,但也可训练代码模型和泛化模型,Agent应用不一定需RL训练,但资源成本下降后RL可训练更好Agent模型 [39] Agent技术未来展望 - Multi-Agent是必要方向,因Agent workflow复杂需多智能体配合,智能体普及后交互和算法逻辑更复杂,带来更多算法和infra机会 [41] - Agent将成为大模型交互形式主流,从被动变主动,自主探索和工作时间空间扩大,算法提升空间大,新范式一定会出现 [42]
清华叉院教授手把手教你用强化学习训练智能体
机器之心· 2025-08-19 02:43
大模型智能体技术发展 - 智能体强化学习(Agentic RL)是训练通用智能体的核心技术之一 [1] - ASearcher项目基于AReaL全异步Agentic RL框架打造端到端搜索智能体(Search Agent) [1] - AReaL框架支持智能体进行128次复杂环境交互并实现长程工具调用(Long-Horizon Tool Use) [2] ASearcher项目技术特点 - 采用极简代码设计实现单文件内完成复杂长程工具调用 [2] - 全异步RL技术解锁智能体的长程工具调用能力 [11] - 提供轻量级开发工具AReaL-Lite实现极速Agentic RL训练 [11] 技术实践与分享 - 以多轮搜索智能体(multi-turn search agent)为例展示极简代码实现 [2] - 直播将手把手教学在jupyter notebook中实现多轮search agent训练 [11] - 推荐使用4卡GPU服务器进行训练实践 [11] 团队与资源 - 项目由清华大学交叉信息院吴翼教授团队主导 [11] - 核心成员包括清华博士生及蚂蚁强化学习实验室研究员 [11] - 提供预习用的jupyter notebook资源(GitHub链接) [11] 行业活动信息 - 直播主题为"清华叉院教授手把手教你用强化学习训练智能体" [8] - 直播时间定于北京时间8月21日19:30-20:30 [10] - 活动包含QA环节并提供技术交流群 [10]
从 OpenAI 回清华,吴翼揭秘强化学习之路:随机选的、笑谈“当年不懂股权的我” | AGI 技术 50 人
AI科技大本营· 2025-06-19 01:41
吴翼的职业发展路径 - 高中时期获得全国青少年信息学奥林匹克竞赛金牌并代表中国参加国际竞赛[2] - 保送清华大学交叉信息研究院姚班,师从图灵奖得主姚期智[2] - 本科期间在微软亚洲研究院和Facebook实习[2] - 2014年赴加州大学伯克利分校攻读人工智能博士学位,师从Stuart Russell[4] - 博士毕业后加入OpenAI担任研究员,参与多智能体捉迷藏项目[4][5] - 2020年回国任清华大学交叉信息研究院助理教授[5] - 2023年创办边塞科技,探索大语言模型与强化学习结合[6] - 2024年与蚂蚁技术研究院合作推出开源强化学习系统AReaL[6] 强化学习技术发展 - OpenAI多智能体捉迷藏项目展示复杂行为通过简单规则自发涌现,成为观看量最高的研究视频之一[5] - AReaL系统专为大规模推理模型设计,优化强化学习训练效率与灵活性[6][18] - 推理模型通过"thinking token"机制提升准确性,强化学习成为关键训练工具[18] - 与RLHF相比,AReaL更关注提升模型推理能力而非行为调优[21] - 大模型时代强化学习面临新挑战:模型规模增长1000倍,计算需求剧增[23] - 训练系统效率成为关键瓶颈,开源系统价值可能超过开源模型[32] AI行业趋势与挑战 - 创业公司面临极短时间窗口,错过关键节点可能导致失败[12] - 模型分化趋势:大而强的高成本模型与轻量化高效小模型并存[31] - 强化学习三要素中系统门槛最高,数据质量次之,算法相对次要[30] - 多智能体系统发展缓慢,部分任务仍需多模型协作[42] - 个性化交互成为AI产品核心竞争力,需适配不同用户类型[37] - 模型"幻觉"问题亟待解决,需建立不确定性认知机制[38][39] 技术突破方向 - 记忆表达与个性化交互是未来重要发展方向[40] - 强化学习Scaling Law仍将持续,后训练阶段提升空间显著[26] - 垂类模型在细分领域深度优化,如代码生成等场景表现突出[26] - 产品+强化学习组合仍是重要方向,生态可能呈现多层次结构[28] - 人机协作场景需AI更好理解人类意图,减少主动打扰[37]