Workflow
信息瓶颈
icon
搜索文档
中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失
量子位· 2025-03-31 04:35
研究背景与问题 - 视觉强化学习中的泛化问题受到广泛关注 旨在使智能体具备处理现实复杂任务的能力 在多样化环境中表现良好[7] - 现有方法如数据增广和对比学习仅聚焦于从视觉图像中提取鲁棒信息 忽略了下游关键的决策过程 导致难以捕捉序列数据中关键的长期信息[8] - 许多方法未考虑序列决策过程 导致所学表征缺乏关键的长期信息[1] 方法创新 - 研究人员在信息瓶颈框架下提出ROUSER方法 通过引入信息瓶颈学习能有效捕捉决策目标中长期信息的向量化表征[2][9] - ROUSER通过最大化表征与动作价值之间的互信息来保留长期信息 同时最小化表征与状态-动作对之间的互信息以滤除无关特征[4][10] - 由于动作价值未知 ROUSER将状态-动作对的鲁棒表征分解为单步奖励和下一状态-动作对的鲁棒表征[5][10] 技术实现 - ROUSER包含两个核心模块:奖励模型学习仅包含单步奖励信息的表征 通过最大化奖励表征与单步奖励的互信息 同时最小化奖励表征与状态-动作对的互信息[14][15] - 鲁棒损失模块构建递归式损失函数 仅利用奖励模型编码的表征即可直接计算 该模块不更改批评家模型架构 最终学习的向量化表征为批评家模型的中间层嵌入[16] - 方法理论证明ROUSER能够利用学习到的向量化表征准确估计动作价值 可有效结合各类连续和离散控制的视觉强化学习算法[3][17] 实验效果 - 在12个连续控制任务中 ROUSER于11个任务上取得最优性能 实验包括背景干扰与颜色干扰两类任务[6][18] - 在物体动态颜色变化干扰的6个任务中 ROUSER展现出优越的泛化性能[19][25] - ROUSER可兼容离散控制任务 当与基于价值的VRL方法结合应用于非连续控制任务时 也能提升智能体的泛化性能[21][22]