《模拟山羊3》 - 财报，业绩电话会，研报，新闻

《模拟山羊3》

搜索文档

量子位· 2025-11-14 12:10

文章核心观点 - 字节公司推出专为3D开放世界游戏设计的智能体Lumine，该智能体能够自主完成《原神》等游戏中的跑图、战斗、解谜及长周期主线任务，并展现出强大的跨游戏泛化能力 [1][4][9] - Lumine智能体基于Qwen2-VL-7B-Base模型构建，通过三大核心机制设计和三阶段训练流程，实现了感知、推理、行动的无缝融合，在多项测试中性能显著领先于主流视觉语言模型 [9][10][12][17][22][24] - 行业趋势显示，谷歌等公司也在利用游戏场景训练通用智能体，游戏被视为构建具身通用人工智能的重要试验场，代表了一条清晰的Agent发展路径 [46][48][51] Lumine智能体的核心能力 - 在《原神》中能够动态追踪敌人位置、精准射击、流畅切换角色、收集宝箱，并成功应对Boss战和各种解谜关卡 [4][5][6] - 具备空间感知能力，能沿风场方向收集风神瞳，并在多NPC环境中锁定指定对象完成对话 [6] - 可处理GUI操作，如材料制作、使用传送锚点、切换角色武器，通过鼠标移动完成 [7] - 对于复杂长指令，只需提供任务先验信息或步骤，即可自主执行，例如切换角色并释放技能完成特定收集任务 [8] 技术架构与训练方法 - 感知空间将游戏画面帧调整至720P，以每200ms处理一帧的速度平衡文本可读性和计算效率，并保留历史推理轨迹与动作记录以提供完整上下文 [12][13] - 采用混合思考策略，仅在关键场景生成内心独白式推理，简单场景直接输出动作，提高计算效率 [14] - 通过键盘与鼠标操作建模，将所有操作纳入语言空间，定义为鼠标位移和按键序列格式 [15] - 三阶段训练流程：预训练阶段混合80%游戏动作数据和20%多模态网页数据，使模型掌握基础动作；指令跟随训练使用200小时数据，使短周期任务成功率超80%；决策推理训练使用15小时人工标注数据，使模型能自主完成长周期任务 [17][20][21][22][23][24] 性能表现与实验结果 - Lumine-Instruct在短周期任务中表现优异，简单任务成功率92.5%，困难任务成功率76.8%，显著领先于GPT-5和Gemini 2.5 Pro [33][34][35] - Lumine-Thinking在长周期任务中效率突出，完成《原神》蒙德主线第一章耗时56分钟，任务完成率100%，而GPT-5耗时112分钟，Gemini 2.5 Pro未完成 [40][41] - 跨游戏测试显示，Lumine-Thinking在《鸣潮》前100分钟剧情完成率100%，在《崩坏·星穹铁道》第一章完成率92.3%，在《黑神话·悟空》新手教程及第一章完成率85.7% [43][45] 行业动态与竞品分析 - 谷歌推出基于Gemini模型的SIMA 2智能体，能够遵循基本指令、理解多模态提示、完成长时间复杂任务，并在生成的世界中合理自我定位 [48][49] - 行业共识认为，在大型3D游戏中训练通用智能体是构建具身AGI的重要路径，游戏内的Agent未来有望进入现实物理世界 [51][52]