原神Agent(Lumine)
搜索文档
原神Agent,字节出品
猿大侠· 2025-11-16 04:11
文章核心观点 - 字节公司开发出名为Lumine的原神Agent,该智能体不仅能自主完成《原神》游戏内的跑图、战斗、解谜等复杂任务,还具备强大的跨游戏泛化能力,可在《鸣潮》、《崩坏:星穹铁道》及《黑神话:悟空》等未学习过的游戏中执行任务,代表了在3D开放世界中构建通用智能体(AGI)的重要进展[1][4][46][55] Lumine Agent的核心能力 - 在《原神》中能动态追踪敌人位置、精准射击、流畅切换角色并收集宝箱[4] - 具备超强理解能力,可应对Boss战[6]和空间感知能力,能完成沿风场收集风神瞳等解谜关卡[8] - 能在多NPC环境中锁定指定对象并完成对话[10],并通过鼠标移动完成材料制作、使用传送锚点等GUI操作[12] - 对于复杂长指令,只需提供任务先验信息或步骤即可执行,例如切换特定角色并释放技能以完成收集任务[14] 技术架构与核心机制 - 基于Qwen2-VL-7B-Base模型搭建,继承其多模态理解与生成能力[16] - 采用类人交互范式,通过统一语言空间建模所有操作和推理,实现感知、推理、行动的无缝融合[17] - 感知空间将游戏画面帧调整至720P,以每200ms速度处理一帧,并保留历史推理轨迹与动作记录以提供决策上下文[20][21] - 采用混合思考策略,仅在关键场景生成内心独白式推理,简单场景则直接输出动作以提高效率[22] - 将所有键盘与鼠标操作纳入语言空间,定义为鼠标位移和按键序列的格式[23] 三阶段训练流程 - 第一阶段预训练混合80%游戏动作数据和20%多模态网页数据,使模型掌握基础视觉运动能力,涌现出物体交互、基础战斗等核心能力[25][26] - 第二阶段指令跟随训练使用38类任务场景下的200小时数据,使模型理解自然语言指令,关联动作与语言,可完成10秒至数分钟短周期任务且成功率超80%[27][28] - 第三阶段决策推理训练使用15小时人工标注推理数据,让模型学会自主规划、反思与修正,从而能自主完成数小时以上的长周期任务[29][30] 性能优化与实验结果 - 通过上下文管理和多维度实时优化,包括滑动窗口机制与推理触发刷新策略,并将端到端延迟降至129.8ms[31][32][33] - Lumine-Base在无语言指令下,基础交互能力总成功率超90%,能自发运用元素反应和理解体力值限制等游戏机制[39] - Lumine-Instruct在语言指令驱动的短周期任务中,简单任务成功率达92.5%,困难任务成功率达76.8%,远超其他主流视觉语言模型[41] - Lumine-Thinking在长剧情任务中,完成蒙德主线第一章耗时56分钟且完成率100%,第二、三章合计耗时4.7小时且完成率98.2%[44][45] 跨游戏泛化能力 - 在相似玩法的《鸣潮》中,前100分钟剧情总耗时102分钟且完成率100%[48] - 在玩法差异较大的《崩坏:星穹铁道》中,通过第一章主线总耗时7.2小时且完成率92.3%,是唯一能完整通关的模型[48] - 在高难度3A游戏《黑神话:悟空》中,完成新手教程和第一章前半段耗时2.1小时且完成率85.7%[49] 行业趋势与意义 - 谷歌等公司也在使用游戏场景训练Agent,例如其基于Gemini模型的SIMA 2,具备遵循指令和强大推理能力[52][53] - 字节和谷歌DeepMind代表了一条清晰的Agent发展路径:在大型3D游戏中构建具身AGI,并相信游戏内的通用Agent终将进入现实物理世界[55][56]
原神Agent,字节出品
量子位· 2025-11-14 12:10
文章核心观点 - 字节公司推出专为3D开放世界游戏设计的智能体Lumine,该智能体能够自主完成《原神》等游戏中的跑图、战斗、解谜及长周期主线任务,并展现出强大的跨游戏泛化能力 [1][4][9] - Lumine智能体基于Qwen2-VL-7B-Base模型构建,通过三大核心机制设计和三阶段训练流程,实现了感知、推理、行动的无缝融合,在多项测试中性能显著领先于主流视觉语言模型 [9][10][12][17][22][24] - 行业趋势显示,谷歌等公司也在利用游戏场景训练通用智能体,游戏被视为构建具身通用人工智能的重要试验场,代表了一条清晰的Agent发展路径 [46][48][51] Lumine智能体的核心能力 - 在《原神》中能够动态追踪敌人位置、精准射击、流畅切换角色、收集宝箱,并成功应对Boss战和各种解谜关卡 [4][5][6] - 具备空间感知能力,能沿风场方向收集风神瞳,并在多NPC环境中锁定指定对象完成对话 [6] - 可处理GUI操作,如材料制作、使用传送锚点、切换角色武器,通过鼠标移动完成 [7] - 对于复杂长指令,只需提供任务先验信息或步骤,即可自主执行,例如切换角色并释放技能完成特定收集任务 [8] 技术架构与训练方法 - 感知空间将游戏画面帧调整至720P,以每200ms处理一帧的速度平衡文本可读性和计算效率,并保留历史推理轨迹与动作记录以提供完整上下文 [12][13] - 采用混合思考策略,仅在关键场景生成内心独白式推理,简单场景直接输出动作,提高计算效率 [14] - 通过键盘与鼠标操作建模,将所有操作纳入语言空间,定义为鼠标位移和按键序列格式 [15] - 三阶段训练流程:预训练阶段混合80%游戏动作数据和20%多模态网页数据,使模型掌握基础动作;指令跟随训练使用200小时数据,使短周期任务成功率超80%;决策推理训练使用15小时人工标注数据,使模型能自主完成长周期任务 [17][20][21][22][23][24] 性能表现与实验结果 - Lumine-Instruct在短周期任务中表现优异,简单任务成功率92.5%,困难任务成功率76.8%,显著领先于GPT-5和Gemini 2.5 Pro [33][34][35] - Lumine-Thinking在长周期任务中效率突出,完成《原神》蒙德主线第一章耗时56分钟,任务完成率100%,而GPT-5耗时112分钟,Gemini 2.5 Pro未完成 [40][41] - 跨游戏测试显示,Lumine-Thinking在《鸣潮》前100分钟剧情完成率100%,在《崩坏·星穹铁道》第一章完成率92.3%,在《黑神话·悟空》新手教程及第一章完成率85.7% [43][45] 行业动态与竞品分析 - 谷歌推出基于Gemini模型的SIMA 2智能体,能够遵循基本指令、理解多模态提示、完成长时间复杂任务,并在生成的世界中合理自我定位 [48][49] - 行业共识认为,在大型3D游戏中训练通用智能体是构建具身AGI的重要路径,游戏内的Agent未来有望进入现实物理世界 [51][52]