《模拟山羊3》
搜索文档
原神Agent,字节出品
量子位· 2025-11-14 12:10
文章核心观点 - 字节公司推出专为3D开放世界游戏设计的智能体Lumine,该智能体能够自主完成《原神》等游戏中的跑图、战斗、解谜及长周期主线任务,并展现出强大的跨游戏泛化能力 [1][4][9] - Lumine智能体基于Qwen2-VL-7B-Base模型构建,通过三大核心机制设计和三阶段训练流程,实现了感知、推理、行动的无缝融合,在多项测试中性能显著领先于主流视觉语言模型 [9][10][12][17][22][24] - 行业趋势显示,谷歌等公司也在利用游戏场景训练通用智能体,游戏被视为构建具身通用人工智能的重要试验场,代表了一条清晰的Agent发展路径 [46][48][51] Lumine智能体的核心能力 - 在《原神》中能够动态追踪敌人位置、精准射击、流畅切换角色、收集宝箱,并成功应对Boss战和各种解谜关卡 [4][5][6] - 具备空间感知能力,能沿风场方向收集风神瞳,并在多NPC环境中锁定指定对象完成对话 [6] - 可处理GUI操作,如材料制作、使用传送锚点、切换角色武器,通过鼠标移动完成 [7] - 对于复杂长指令,只需提供任务先验信息或步骤,即可自主执行,例如切换角色并释放技能完成特定收集任务 [8] 技术架构与训练方法 - 感知空间将游戏画面帧调整至720P,以每200ms处理一帧的速度平衡文本可读性和计算效率,并保留历史推理轨迹与动作记录以提供完整上下文 [12][13] - 采用混合思考策略,仅在关键场景生成内心独白式推理,简单场景直接输出动作,提高计算效率 [14] - 通过键盘与鼠标操作建模,将所有操作纳入语言空间,定义为鼠标位移和按键序列格式 [15] - 三阶段训练流程:预训练阶段混合80%游戏动作数据和20%多模态网页数据,使模型掌握基础动作;指令跟随训练使用200小时数据,使短周期任务成功率超80%;决策推理训练使用15小时人工标注数据,使模型能自主完成长周期任务 [17][20][21][22][23][24] 性能表现与实验结果 - Lumine-Instruct在短周期任务中表现优异,简单任务成功率92.5%,困难任务成功率76.8%,显著领先于GPT-5和Gemini 2.5 Pro [33][34][35] - Lumine-Thinking在长周期任务中效率突出,完成《原神》蒙德主线第一章耗时56分钟,任务完成率100%,而GPT-5耗时112分钟,Gemini 2.5 Pro未完成 [40][41] - 跨游戏测试显示,Lumine-Thinking在《鸣潮》前100分钟剧情完成率100%,在《崩坏·星穹铁道》第一章完成率92.3%,在《黑神话·悟空》新手教程及第一章完成率85.7% [43][45] 行业动态与竞品分析 - 谷歌推出基于Gemini模型的SIMA 2智能体,能够遵循基本指令、理解多模态提示、完成长时间复杂任务,并在生成的世界中合理自我定位 [48][49] - 行业共识认为,在大型3D游戏中训练通用智能体是构建具身AGI的重要路径,游戏内的Agent未来有望进入现实物理世界 [51][52]