闭环迭代优化 - 财报，业绩电话会，研报，新闻

闭环迭代优化

搜索文档

机器之心· 2025-11-19 04:07

文章核心观点 - 上海交通大学与小红书团队提出名为LoopTool的创新框架，该框架是一个自动的、模型感知的、迭代式的数据进化系统，旨在解决大语言模型在工具调用任务中面临的数据生成与训练流程静态化问题 [2] - LoopTool首次实现了工具调用任务的数据-模型闭环优化，仅依靠开源模型Qwen3-32B作为数据生成器与判别器，使得一个8B规模的模型在工具调用表现上显著超越其32B数据生成器，并在多个公开榜单上取得同规模模型的最佳成绩 [2] - 该方法的核心思想是让数据生成、标签修正与模型训练形成一个自动化的闭环，并由模型性能反馈驱动下一轮数据优化，整个过程完全依赖开源模型，降低了成本并确保了数据高质量与多样性 [7][35] 背景：工具调用的瓶颈 - 工具增强型LLM已在API调用、知识库查询、搜索引擎交互、代码和多模态任务执行、复杂知识问答与数学问题等多领域证明其巨大价值，但要让模型稳健地使用工具，需持续提供与其当前水平匹配的高质量且多样化训练数据 [5] - 现有主流方法采用“先生成全量数据，再训练模型”的静态流程，缺乏对模型学习状态与短板的实时反馈，且依赖监督式微调，使模型难以泛化到更多工具类别 [5] - 若使用闭源生成/评估模型，API成本高且难以大规模迭代；改用开源模型则易引入标签错误，造成训练信号噪声累积甚至误导模型 [5] 方法：LoopTool的闭环数据进化 - LoopTool框架包含种子数据构建与迭代优化闭环两大阶段，迭代优化闭环又细分为四个核心模块：GRPO强化学习训练、贪婪能力探测、判别引导标签校验和错误驱动数据扩展 [7][11][12][13][15] - 种子数据构建阶段通过收集开源API文献并设计语义树和约束树来合成符合功能意图和结构规范的API定义，再通过多智能体工具调用对话生成流程，并经过规则验证和LLM验证两阶段筛选，确保种子集数据的质量和多样性 [9][10] - 迭代优化阶段通过GRPO强化学习鼓励模型探索，利用贪婪能力探测识别高学习价值样本，通过判别引导标签校验比较模型预测与原标签以修正噪声标签，并借助错误驱动数据扩展针对错误样本进行结构保持与情境多样化生成新样本 [11][12][13][15][17] 实验结果 - 在BFCL-v3评测中，LoopTool-8B总体准确率达到74.93%，在所有8B规模开源模型中排名第一，较原始Qwen3-8B提升+8.59个百分点，且超越了用作数据生成与评判的Qwen3-32B；LoopTool-32B以79.32%的总体准确率位列第一 [20] - 在ACEBench评测中，LoopTool-8B以73.4%总体分数夺得同规模第一，比原始Qwen3-8B高出6.3分；LoopTool-32B达到开源模型榜单中的第一，仅次于GPT-4o模型 [21][22] - 消融实验显示，高困惑度样本筛选、判决引导标签校正和错误驱动数据扩展模块均对性能提升有显著贡献，移除任一模组都会导致准确率下降，验证了闭环设计中各组件的重要性 [24][25][27] - 在不同规模模型上的测试表明，模型规模越大，初始迭代和优化迭代阶段的准确率都更高，且大模型在迭代中获得的绝对性能提升更明显，例如8B模型提升+1.80个百分点，而0.6B模型仅提升+0.70个百分点 [28] - 在通用能力和下游任务测试中，LoopTool-8B在MMLU-redux、IFEval、LiveCodeBench、Math-500、AIME24、AIME25等任务上匹配或超越原模型，尤其在指令跟随和代码生成上提升显著；在下游应用如API-Bank、Spotify和GAIA基准测试中，LoopTool模型也展现出更强的实际问题解决能力 [30][31][32][33]