Workflow
NitroGen
icon
搜索文档
震撼,英伟达新模型能打遍几乎所有游戏
机器之心· 2025-12-21 04:21
文章核心观点 - 英伟达发布并开源了名为NitroGen的通用游戏AI基础模型,该模型能够通过观看游戏视频帧直接输出真实手柄操作信号,具备跨1000余款不同类型游戏的零样本游玩能力,并可通过少量微调快速适应新游戏,其技术架构源于机器人模型,旨在作为构建通用具身智能体的重要基础[3][4][5][6][8][12][35] 模型概述与核心组件 - NitroGen是一个完整的通用大模型,以游戏视频帧为输入,输出真实手柄操作信号,天然适配所有支持手柄的游戏[4][8] - 模型设计融合三项关键要素:互联网规模的视频-动作数据集、多游戏基准评测环境、统一的视觉-动作策略模型[13] - 模型由三个核心组件构成:1) 多游戏基础智能体(通用视觉-动作模型);2) 通用模拟器(统一游戏交互接口);3) 互联网规模数据集(目前最大、最丰富的开源游戏数据集之一)[15][16][17] 数据集详情 - 数据集来源于40,000小时的公开游戏视频,覆盖1,000余款游戏,并自动提取生成了对应的动作标签[17][24] - 数据覆盖范围广泛:846款游戏拥有超过1小时的数据,91款游戏拥有超过100小时的数据,15款游戏累计数据量超过1,000小时[25] - 从游戏类型分布看,动作RPG占比最高,占总时长的34.9%;平台跳跃类占18.4%;动作冒险类占9.2%[26] - 数据通过从带有“手柄操作叠加显示”的游戏视频中,使用分割模型自动检测并提取手柄显示区域,转换为“专家级动作标签”来构建[18][19][21] 模型性能与实验结果 - 实验表明,NitroGen在3D动作游戏战斗、2D平台跳跃高精度操作、程序生成世界探索等多种场景中均表现出较强能力[28] - 使用5亿参数的统一模型在完整数据集上训练,在未进行任何额外微调的情况下,能够在多种视觉风格和游戏类型的游戏中完成非平凡的任务[30] - 模型能有效迁移到新游戏,在相同任务设定下,其任务成功率相比从零开始训练的模型最高可实现52%的相对提升[32] 战略意义与行业影响 - NitroGen被视为构建通用型具身智能体的起点,其能力聚焦于“玩家直觉式运动控制”,目标是打造能适应由无数模拟环境构成的“多元宇宙”中所有可能物理规则的智能体[34][35] - 电子游戏具备完整的世界和交互体系,是实现通用游戏操作的重要模拟环境,掌握此能力是迈向操作机器人进行真实世界交互的关键一步[35] - 英伟达已开源发布该模型的数据集、评测套件及模型权重,以推动通用具身智能体方向的进一步研究[36] - 该技术预示未来机器人学可能成为具身AGI巨大潜在空间中的一个子集,最终或可通过自然语言提示来请求机器人“游戏手柄”[37][38]