Workflow
大模型开始打王者荣耀了

腾讯TiG框架技术突破 - 提出Think-In-Games框架 将大语言模型直接应用于《王者荣耀》训练 实现实时游戏盘面理解与人类级别操作[1] - 仅14B参数的Qwen-3-14B模型通过TiG框架达到90.91%动作精准度 超越671B参数的Deepseek-R1模型[2] - 将强化学习决策重新定义为语言建模任务 通过语言指导策略生成与环境反馈迭代优化[3] 技术实现原理 - 大语言模型在游戏中直接行动并解释原因 弥合传统LLM只知原理与RL只知行动的鸿沟[4][5] - 主要学习人类玩家宏观层面推理能力 包括长期目标制定 团队协同策略 地图施压控制等[6] - 将决策转化为文本 通过JSON读取游戏状态 从固定菜单选择宏操作并解释原因[7] 训练方法与数据构建 - 采用多阶段训练结合监督微调与强化学习 使用GRPO算法最大化生成内容优势[12][9] - 从真实对局采样构建数据集 通过重新标注算法确保每个状态带有宏观动作标签[9] - 基于二元规则奖励机制 预测操作与人类玩法匹配时奖励为1 否则为0[11] 模型性能表现 - Qwen-2.5-32B应用GRPO后准确率从66.67%提升至86.84%[14][15] - Qwen2.5-14B经SFT+GRPO训练后准确率从53.25%提升至83.12%[14][15] - 最佳表现组合为Qwen-3-14B+SFT+GRPO(2000步) 达到90.91%准确率[2][15] 应用场景特征 - 模型扮演战略决策角色而非操作执行 类似金牌教练而非职业选手[6][7] - 具体案例显示模型能全面评估游戏状态 分析优先目标 制定策略并输出指令[8][9] - 在数据量和计算需求显著降低情况下取得与传统RL方法竞争性性能[17]