非完全信息多人博弈

搜索文档
清华唐杰新作:大模型能打掼蛋吗?
量子位· 2025-09-10 10:01
研究核心发现 - 大语言模型能够通过专门训练掌握8种不同类型的棋牌游戏 包括斗地主 掼蛋 立直麻将 Uno 金拉米 Leduc扑克 限注德州扑克和无限注德州扑克 [2][8] - 经过混合训练的微调模型在复杂棋牌游戏中表现显著优于基础模型和API模型 其中GLM4-9B-Chat-mix在6款游戏中获得最高分 [40][42] - 游戏规则相似性会影响模型表现 规则相近的游戏之间存在正向促进作用 而规则差异大的游戏可能出现性能冲突 [45][46][52] 模型性能对比 - 在5种API模型中 GPT-4o综合表现最佳 在大多数游戏中取得最高分 其中在Leduc扑克获得0.84分 在限注德州扑克获得0.60分 [37][39] - GLM-4-plus在斗地主中获得0.345分 表现优于GPT-4o的0.180分 但GPT-4o在无限注德州扑克获得2.73分 显著优于GLM-4-plus的3.21分 [39] - 微调模型中 GLM4-9B-Chat-mix在斗地主获得0.882分 掼蛋0.698分 Uno 0.252分 均位列第一 [42] - Llama3.1-8B-Instruct-mix在无限注德州扑克获得6.02分 立直麻将1.38分 表现突出 [43] 训练方法设计 - 研究采用教师模型生成高质量轨迹数据进行训练 针对不同游戏复杂度设计差异化数据采集方案 [14][20] - 斗地主 掼蛋和立直麻将各收集100万个训练实例 其余5款游戏各采样40万个实例 [20] - 训练数据量对性能提升至关重要 随着数据量增加 模型在斗地主和掼蛋中的表现逐渐接近教师模型 [24] - 混合训练数据集包含310万条数据 各游戏数据量分别为70万 95万 65万 20万 5万 25万 20万和10万 [35] 模型能力分析 - 模型在斗地主中表现出角色差异 GLM在地主角色表现优于Qwen和Llama 但在农民角色表现较差 [29][30] - 数据过滤时只保留获胜方数据 导致农民角色数据质量较低 影响模型表现 [31][32] - 即使没有教师模型 大模型在立直麻将中仍达到与顶尖麻将AI相当的表现 [25] - 模型规模影响性能 研究对参数规模从0.5B到14B的Qwen2.5进行微调以评估规模效应 [22] 通用能力影响 - 在所有游戏上微调的混合模型出现通用能力显著下降 包括知识问答 数学和编程能力 [54] - 通过加入通用数据对游戏模型进行微调 模型的通用能力得到一定程度恢复 [56] - 研究表明只要加入一定量的通用数据 模型打牌能力与通用能力可实现平衡 [6]