ViLoMem
搜索文档
让大模型“吃一堑长一智”,南理工百度等提出模型记忆新方法
量子位· 2025-12-17 09:07
文章核心观点 - 南京理工大学与百度等单位联合提出了一种名为ViLoMem的新方法,该方法通过构建视觉流与逻辑流分离的双流语义记忆,使多模态大模型能够从错误中学习,有效解决了模型“记不住教训”的问题[1] - ViLoMem是一个即插即用的框架,无需微调模型参数,即可在多模态推理基准上稳定提升模型性能,并为构建能从经验中学习的多模态智能体提供了新路径[5] 技术原理与框架 - ViLoMem的核心思想是将“看错了什么”(视觉错误)和“想错了什么”(逻辑错误)分开记忆,模仿人类的多模态整合语义记忆方式[14][16] - 框架包含记忆生成与记忆检索两个关键部分[18] - 记忆生成:当模型解题失败时,并行启动视觉分析模块与逻辑分析模块,分别生成结构化的视觉指南和逻辑规则[19][20][21] - 记忆检索:采用不同的策略。视觉记忆采用两阶段检索(图像级相似度搜索与问题语义过滤)并生成问题感知的注意力热力图;逻辑记忆则基于对题目的理解进行语义匹配检索[26][27][28][29] - 通过“增长-精炼”机制控制记忆规模,新记忆会与已有记忆进行相似度匹配,或合并为更通用的规则,或创建新记忆槽位,避免记忆无限膨胀[23][24] 性能提升效果 - 在六个多模态基准测试中,ViLoMem使GPT-4.1在MathVision上的得分提升+6.48,在MathVista上提升+2.61[2][31] - 对于小模型,Qwen3-VL-8B在MMMU基准上提升+4.38,在RealWorldQA上提升+2.74[2][31] - 从任务类型看,数学与视觉密集任务收益最大,因为双流记忆能阻断视觉错误向推理链条的级联传播[31][33] - 从模型规模看,小模型提升幅度更大[31] 知识迁移与蒸馏效应 - ViLoMem支持跨模型记忆迁移,即小模型可以直接使用大模型生成的记忆[34] - 实验显示,Qwen3-VL-8B使用大模型(Qwen3-VL-235B)的记忆后,在MMMU上的得分从69.90提升至71.26,在MathVista上从77.87提升至79.20[36] - 这提供了一种“免微调的知识蒸馏”路径,使强模型的经验能直接赋能弱模型[3][36]