ReSTEM
搜索文档
0人工参与实现梯度更新!MIT新框架让AI自动生成微调数据,权重自主升级
量子位· 2025-10-14 04:08
文章核心观点 - MIT提出名为SEAL的新型强化学习框架,使大模型能够自主生成微调数据和自我更新指令,实现在权重层面的自我更新[1][4][6] - 该框架采用内外两层嵌套学习机制,无需人工参与即可自动进行梯度更新,使模型具备自主学习新知识和适应新任务的能力[2][5][25] - SEAL首次在权重层面赋予大模型自我驱动的更新能力,突破了完全依赖外部监督数据的局限[6] 技术框架与工作机制 - SEAL框架由强化学习驱动的外部循环和执行参数更新的内部循环构成[26] - 外部循环中,模型针对新输入上下文生成自然语言组成的"self-edit"指令,自主设计训练流程包括提取信息、生成训练样本和设定训练参数[28][29] - 内部循环中,模型按照指令执行微调,构造合成训练数据并进行权重更新,随后立即评估新模型在任务上的表现[30][31][32] - 采用ReSTEM强化学习方法,通过行为克隆+过滤采样优化self-edit生成策略,训练更稳定且适用于大模型生成行为学习[33][35][37] 知识注入实验成果 - 使用Qwen2 5-7B模型和SQuAD数据集进行知识注入测试,SEAL微调后准确率达47 0%,优于原始模型32 7%和使用GPT-4 1合成数据46 3%的表现[14][15] - 在200段落设置下准确率达到58 2%,证明框架可泛化至更大规模数据整理任务[16] - 实验对比方案包括仅用原始段落微调33 5%准确率,凸显SEAL较强知识整合能力[13][14][15] 小样本学习实验成果 - 使用LLaMA-3 2-1B-Instruct模型和ARC-AGI数据集子集进行小样本学习测试[17][18] - SEAL训练出的策略使任务成功率达到72 5%,远高于固定few-shot提示0%和随机采样策略20%的表现[22] - 虽然不及人工设定最优策略100%的成功率,但作为模型自主摸索的学习路径已体现较强任务适应能力[22] 技术优势与应用前景 - SEAL框架实现"学会如何让自己学得更好",使模型能主动设计训练方式、构造训练数据并优化自学习策略[38] - 最终表现为具备自我编辑与持续进化能力的语言模型结构,为模型自主学习提供新范式[38]