自我博弈

搜索文档
大模型训练新突破,Meta提出LSP:无数据也能实现能力飞升
36氪· 2025-09-22 01:48
高质量数据的不足,已经成为限制大语言模型(LLM)持续学习、提升能力的瓶颈。 为此,Meta 提出了一个名为"语言自我博弈"(Language Self-Play,LSP)的强化学习(RL)新方法,通过让模型在不依赖额外数据的情况下进行自我改 进,从而消除了这种依赖性。 论文链接:https://arxiv.org/abs/2509.07414 这一方法利用了自我博弈(self-play)的博弈论框架,将模型的能力视为在竞技游戏中的表现,并通过让模型自己与自己博弈来产生更强的策略。 在指令遵循基准测试中,使用 Llama-3.2-3B-Instruct 进行的实验表明,预训练模型不仅可以单独通过自我博弈来提高其在挑战性任务上的性能,而且比数 据驱动的基线模型更有效。 自我博弈:既是挑战者,又是解题者 据论文介绍,在 LSP 框架中,同一个预训练 LLM 被赋予两种不同身份,形成动态对抗关系。 其中,"挑战者" (Challenger)负责生成查询内容,目标是设计更具挑战性的指令,以此"难住"解题者,从而最小化任务奖励。为了让挑战者生成有效查 询,研究团队设计了专用提示词(),明确要求其生成符合任务类型、测试模 ...
清华&通院推出"绝对零"训练法,零外部数据大模型自我博弈解锁推理能力
量子位· 2025-05-12 04:11
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 不用引入外部数据 ,通过自我博弈(Self-play)就能让预训练大模型学会推理? 来自清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员,提出了一种名为 "绝对零" (Absolute Zero)的训练方式。 这种方法通过让大模型根据推理目标,自己生成并解决任务,便可以获得推理能力。 测试中,用"绝对零"训练出的模型,表现已 经超过了用专家标注样本训练的模型 。 并且"绝对零"方法只需在代码环境中训练,但可以让模型在数学推理上也取得显著进步。 这项研究也在Reddit上引发了讨论,开帖转载的网友惊叹:会自我进化的AI已经被解锁了? Proposer负责生成新的推理任务,Solver负责解决这些任务。通过两个角色的交替和协同,模型可以自主地构建学习任务分布,并在求解任 务的过程中不断提升推理能力。 "绝对零"将所有的推理任务统一表示为 (p,i,o) (即程序,输入,输出)的三元组形式。 这里的程序是一段可执行的代码,输入是该程序的输入数据,输出是程序在给定输入下的输出结果。 在出题-做题中自我学习 "绝对零"采用了一种自我博弈的学习范式。在这个 ...