Workflow
从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
机器之心·2025-09-08 10:30

范式迁移 - 大语言模型训练从基于人类或数据偏好的强化学习(PBRFT)转向智能体强化学习(Agentic RL)[2] - PBRFT范式存在缺乏长期规划、环境交互与持续学习能力的局限[2] - Agentic RL将LLM从被动对齐进化为主动决策的智能体 在动态环境中规划、行动、学习[2] 理论框架 - Agentic RL将LLM置于部分可观测马尔可夫决策过程(POMDP)下进行多步交互[6] - 动作空间从单一文本扩展为文本加操作[8] - 奖励从单步评分扩展为时序反馈 优化整条决策轨迹[8] - 目标函数从期望奖励最大化转变为带折扣因子的累积奖励最大化[10] 算法体系 - 强化学习优化算法形成从通用策略梯度到偏好优化的谱系[10] - PPO家族包含VAPO、PF-PPO、VinePPO等算法 采用策略梯度方法和奖励信号[12] - DPO家族包含B-DPO、SimPO、IPO等算法 采用偏好优化方法和人类偏好信号[12] - GRPO家族包含DAPO、GSPO、GMPO等算法 采用策略梯度方法和基于组的奖励信号[12] 核心能力模块 - 规划能力通过外部引导或内部驱动为复杂任务设定子目标与多步行动序列[14] - 工具使用从静态提示模仿演进到工具集成强化学习 让智能体自主选择组合工具[15] - 记忆能力包括基于外部数据库检索记忆、Token级别记忆和结构化记忆[17] - 自我改进能力分为基于语言强化学习、训练内化自提升能力和迭代自训练三类[18] - 推理能力分为快速直觉推理和慢速缜密推理两种模式[19] - 感知能力通过定位驱动、工具驱动和生成驱动等方式提升多模态信息理解效果[19] 任务应用领域 - 搜索与研究领域优化多轮检索与证据整合策略[25] - 代码领域将编译错误与单元测试结果用作奖励 推动智能体能力进化[25] - 数学领域在非形式化推理中利用正确率或中间过程奖励塑造推理轨迹[26] - 图形界面领域在网页和桌面环境中学习点击、输入、导航等操作[27] - 视觉与具身领域融合视觉感知与决策规划 实现看-思-做连续决策闭环[28] - 多智能体系统通过奖励设计促使多个模型在竞争或合作中涌现沟通与分工能力[28] 环境与框架 - 现有环境涵盖网页、GUI、代码、游戏等多种开源平台[32] - 配套评测基准包括LMRL-Gym、ALFWorld、TextWorld等457项资源[33] - Agentic RL框架包括Verifiers、SkyRL-v0、AREAL等9种类型[34] - RLHF和LLM微调框架包括OpenRLHF、TRL、trlX等6种系统[34] - 通用强化学习框架包括RLlib、Acme、Tianshou等5种平台[34] - 综述整合500+篇相关研究 在GitHub上开源Awesome-AgenticLLM-RL-Papers资源库[34] 发展前景 - Agentic RL已成为LLM演进的重要训练范式[37] - 单步对齐已难以支撑复杂任务 LLM训练范式进入Agentic RL下半场[37] - 强化学习是将核心能力从启发式功能转化为稳健智能行为的关键机制[37] - LLM将有望从会说迈向会做 成长为更通用、更自主的智能体[38]