Workflow
大模型无数据训练
icon
搜索文档
大模型训练新突破,Meta提出LSP:无数据也能实现能力飞升
36氪· 2025-09-22 01:48
高质量数据的不足,已经成为限制大语言模型(LLM)持续学习、提升能力的瓶颈。 为此,Meta 提出了一个名为"语言自我博弈"(Language Self-Play,LSP)的强化学习(RL)新方法,通过让模型在不依赖额外数据的情况下进行自我改 进,从而消除了这种依赖性。 论文链接:https://arxiv.org/abs/2509.07414 这一方法利用了自我博弈(self-play)的博弈论框架,将模型的能力视为在竞技游戏中的表现,并通过让模型自己与自己博弈来产生更强的策略。 在指令遵循基准测试中,使用 Llama-3.2-3B-Instruct 进行的实验表明,预训练模型不仅可以单独通过自我博弈来提高其在挑战性任务上的性能,而且比数 据驱动的基线模型更有效。 自我博弈:既是挑战者,又是解题者 据论文介绍,在 LSP 框架中,同一个预训练 LLM 被赋予两种不同身份,形成动态对抗关系。 其中,"挑战者" (Challenger)负责生成查询内容,目标是设计更具挑战性的指令,以此"难住"解题者,从而最小化任务奖励。为了让挑战者生成有效查 询,研究团队设计了专用提示词(),明确要求其生成符合任务类型、测试模 ...