Workflow
大模型自我更新
icon
搜索文档
0人工参与实现梯度更新,,MIT新框架让AI自动生成微调数据,权重自主升级
36氪· 2025-10-14 07:16
技术框架概述 - 提出一种名为SEAL(Self-Adapting LLMs)的新型强化学习框架,使大模型能够生成微调数据和自我更新指令,实现模型权重的自主更新 [1][3] - 该框架采用内外两层嵌套的学习机制,根据更新后模型在任务上的表现计算奖励,以优化自我更新指令的生成策略 [3] - SEAL首次在权重层面赋予大模型自我驱动的更新能力,摆脱了完全依赖外部监督数据的局限,实现无需人工参与的自主梯度更新和知识获取 [1][3] 知识注入任务表现 - 在单段落知识注入实验中,使用Qwen2.5-7B模型,SEAL方法微调后准确率达47.0%,优于原始模型的32.7%、使用原文微调的33.5%以及GPT-4.1合成数据辅助训练的46.3% [6][10] - 在200段落设置下,SEAL准确率达到58.2%,显著高于未优化版本,表明该框架可泛化至更大规模数据整理任务 [8][10] - 实验对比方法包括仅用原始段落微调、使用GPT-4.1生成的句子辅助训练以及SEAL自身生成数据微调 [9] 小样本学习任务表现 - 在小样本学习实验中,使用LLaMA-3.2-1B-Instruct模型和ARC-AGI数据集子集,SEAL训练出的策略使任务成功率高达72.5% [15][16] - 该成功率远高于仅使用固定few-shot提示的0%以及随机采样策略的20%,虽不及人工设定最优策略的100%,但显示出强大的自主任务适应能力 [15][16] - 模型接收到任务示例后,生成训练配置并执行LoRA微调,随后在测试输入上进行预测 [13] 技术实现机制 - SEAL采用双循环系统,外部循环由强化学习驱动,模型首先生成描述如何更新自己的自然语言“微调指令”,内部循环则执行该指令进行参数更新 [17][18] - 使用名为ReSTEM的非传统强化学习方法,其关键思路是行为克隆加过滤采样,通过生成多个self-edit候选并仅保留带来性能提升的指令来优化策略 [18][20] - 整个工作流程为模型读取新信息,用自己的语言重写并进行梯度更新,实现“学会如何让自己学得更好”的自我编辑与持续进化能力 [17][20]