Workflow
类GAN训练框架
icon
搜索文档
两个LLM互相对线,推理能力起飞:康奈尔团队发布大模型版类GAN训练法
机器之心· 2025-12-07 02:52
研究背景与核心观点 - 当前大型语言模型在数学推理等任务上仍高度依赖外部监督数据,如人工标注[2] - 研究提出一种类似生成对抗网络的训练范式,通过两个模型(Proposer和Solver)的对抗与共同进化,旨在解决单一模型难以胜任的任务[2] - 该框架名为PasoDoble,由康奈尔大学团队提出,其核心特点是在整个训练过程中完全不依赖任何监督信号[3] 方法论与框架设计 - PasoDoble框架包含四个核心组件:问题生成模型、问题求解模型、知识库以及用于离线训练的题目缓冲区[9] - 训练过程分为在线与离线两种范式,在线训练中两个模型同步更新,离线训练中则交替冻结进行更新[9][10] - 问题生成模型的奖励机制由难度奖励和多样性奖励构成,旨在鼓励其生成既困难又新颖的问题[13][21] - 难度奖励与求解模型的通过率成反比,即使问题非常简单也能获得基础奖励,以确保问题生成的持续性[15][16] - 多样性奖励通过计算与历史问题的Jaccard相似度来鼓励生成独特问题,避免模式退化[17][20] - 问题求解模型的奖励设计相对简单,仅依赖于其答案与问题生成模型提供的标准答案是否一致的正确性奖励[22][23] 实验结果与性能提升 - 在Qwen3-1.7B-Base模型上,应用PasoDoble后,其在AIME 2024的准确率从2.22%提升至7.22%,在AIME 2025从1.67%提升至7.22%[6] - 在Qwen3-4B-Base模型上,应用PasoDoble后,其在AIME 2024的准确率从6.11%提升至18.89%,在AIME 2025从2.78%提升至18.89%[6] - 在完全无监督条件下,PasoDoble使Qwen3-1.7B-Base在数学任务上的平均性能提升约13个百分点,使Qwen3-4B-Base提升约16个百分点[7] - 在MATH-500基准上,使用Qwen3-1.7B的求解模型准确率从45%提升至67%,并在第20步训练后即超过基线模型[11] - 性能提升具有规模效应,在Qwen2.5-1.5B/3B和Qwen3-1.7B/4B等更大规模模型上提升更为显著[28] - 消融实验表明,使用完全随机奖励进行训练会使求解模型在所有数学基准上的平均准确率几乎降至零,证明了从问题生成模型答案中学习的重要性[36][37] 模型行为分析 - 对问题生成模型的分析显示,即使提示问题前缀重叠达到80%,其生成问题与提示的精确匹配率也仅为12%(使用知识库)和31%(不使用知识库),表明绝大多数生成的问题源于推理而非对训练数据的简单记忆[38][39] 研究意义与未来方向 - 该研究为大语言模型提供了一种通过对抗式训练提升数学推理能力的新路径,并在多个竞赛级数学基准上取得了可量化的显著提升[41] - 该方法通过利用预训练知识库,在模型的预训练阶段与后训练阶段之间建立了有效连接[41] - 当前框架在如GPQA等特定领域外任务中尚未表现出性能提升,未来研究将探索将该框架拓展至代码生成、事实问答等其他领域[41] - 研究指出,探索更广泛的多模型训练范式,包括协作式、竞争式以及角色专门化等设置,对于解决更复杂的任务至关重要[41]