Workflow
记忆增强智能体
icon
搜索文档
强化学习+大模型记忆:Mem-α,让智能体第一次学会“如何记忆”
机器之心· 2025-11-07 07:17
文章核心观点 - 大语言模型的“记忆”能力是实现长期智能的关键,但现有方案存在成本高、依赖人工规则等瓶颈 [2] - Mem-α 是首个将强化学习引入大模型记忆管理体系的方案,使模型能自主学习记忆的存储、更新和组织策略 [2] - 该方法将记忆构建转化为序列决策问题,通过端到端优化实现高效记忆管理,在性能、效率和泛化能力上均显著超越现有基线 [9][22][24] 技术方案与架构 - Mem-α 采用三层记忆架构:核心记忆(用户身份/目标)、情景记忆(时间线事件)、语义记忆(结构化知识) [15][19] - 通过强化学习优化记忆策略,奖励函数包含问答准确率、工具调用格式、记忆压缩和内容有效性四个维度 [12][13] - 训练数据集基于MemoryAgentBench构建,涵盖精确检索、测试时学习和长期理解三个维度 [17] 性能表现与实验结果 - 在验证集上,Mem-α平均性能达0.642,显著高于Long-Context(0.588)和RAG-Top2(0.567) [20] - 在测试集上,Mem-α-4B平均性能达0.592,优于Long-Context(0.461)和RAG-Top2(0.502) [21] - 记忆占用减少近50%,在BookSum任务中记忆使用仅2.2K,远低于Long-Context的15.4K [20][22] - 具备极强长度外推能力,训练仅用<30K tokens样本,可稳定泛化至超过400K tokens的超长文档 [24] 技术突破与行业意义 - 首次实现记忆建模领域的真正长度外推,证明模型学会的是通用记忆策略而非特定模式 [24] - 消融实验显示,经Mem-α训练后模型准确率从38.9%提升至64.2%,实现从“不会用记忆”到“自主管理记忆”的质变 [25] - 标志记忆管理从工程问题转向可学习问题,为多模态记忆、个性化策略等方向开辟新路径 [27]