Workflow
通用具身智能体
icon
搜索文档
震撼,英伟达新模型能打遍几乎所有游戏
机器之心· 2025-12-21 04:21
文章核心观点 - 英伟达发布并开源了名为NitroGen的通用游戏AI基础模型,该模型能够通过观看游戏视频帧直接输出真实手柄操作信号,具备跨1000余款不同类型游戏的零样本游玩能力,并可通过少量微调快速适应新游戏,其技术架构源于机器人模型,旨在作为构建通用具身智能体的重要基础[3][4][5][6][8][12][35] 模型概述与核心组件 - NitroGen是一个完整的通用大模型,以游戏视频帧为输入,输出真实手柄操作信号,天然适配所有支持手柄的游戏[4][8] - 模型设计融合三项关键要素:互联网规模的视频-动作数据集、多游戏基准评测环境、统一的视觉-动作策略模型[13] - 模型由三个核心组件构成:1) 多游戏基础智能体(通用视觉-动作模型);2) 通用模拟器(统一游戏交互接口);3) 互联网规模数据集(目前最大、最丰富的开源游戏数据集之一)[15][16][17] 数据集详情 - 数据集来源于40,000小时的公开游戏视频,覆盖1,000余款游戏,并自动提取生成了对应的动作标签[17][24] - 数据覆盖范围广泛:846款游戏拥有超过1小时的数据,91款游戏拥有超过100小时的数据,15款游戏累计数据量超过1,000小时[25] - 从游戏类型分布看,动作RPG占比最高,占总时长的34.9%;平台跳跃类占18.4%;动作冒险类占9.2%[26] - 数据通过从带有“手柄操作叠加显示”的游戏视频中,使用分割模型自动检测并提取手柄显示区域,转换为“专家级动作标签”来构建[18][19][21] 模型性能与实验结果 - 实验表明,NitroGen在3D动作游戏战斗、2D平台跳跃高精度操作、程序生成世界探索等多种场景中均表现出较强能力[28] - 使用5亿参数的统一模型在完整数据集上训练,在未进行任何额外微调的情况下,能够在多种视觉风格和游戏类型的游戏中完成非平凡的任务[30] - 模型能有效迁移到新游戏,在相同任务设定下,其任务成功率相比从零开始训练的模型最高可实现52%的相对提升[32] 战略意义与行业影响 - NitroGen被视为构建通用型具身智能体的起点,其能力聚焦于“玩家直觉式运动控制”,目标是打造能适应由无数模拟环境构成的“多元宇宙”中所有可能物理规则的智能体[34][35] - 电子游戏具备完整的世界和交互体系,是实现通用游戏操作的重要模拟环境,掌握此能力是迈向操作机器人进行真实世界交互的关键一步[35] - 英伟达已开源发布该模型的数据集、评测套件及模型权重,以推动通用具身智能体方向的进一步研究[36] - 该技术预示未来机器人学可能成为具身AGI巨大潜在空间中的一个子集,最终或可通过自然语言提示来请求机器人“游戏手柄”[37][38]
北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵
机器之心· 2025-12-18 09:08
研究背景与挑战 - 当前视觉-语言-动作模型在机器人场景理解与操作上展现出通用性,但在需要明确目标终态的长时序任务中,难以兼顾高层规划与精细操控 [2] - 长周期任务面临两大核心难题:一是需要执行精确操作以严格对齐预定义最终状态;二是需要将长周期规划与细粒度控制有效集成,同时保持对多样化现实环境的泛化能力 [9] - 现有依赖人工制作说明书或人类演示视频的分层方法,在泛化到未见过的最终目标状态方面存在局限,难以在系统复杂度、部署成本和泛化性之间取得平衡 [9] ManualVLA 方法概述 - 该模型由北京大学、香港中文大学与至简动力团队提出,旨在解决长时序任务中规划与执行的割裂问题 [3] - 核心创新是构建了全新的「生成–理解–动作」一体化模型,让模型学会自己生成多模态操作说明书,再按说明书去执行动作 [5][12] - 模型摒弃了将高层次规划与动作生成拆分的传统分层方案,构建了全新的通用基础模型 Mixture-of-Transformers 架构,在同一模型中统一多专家模块,实现多模态生成与动作执行的紧密协同 [5] 核心技术:架构与思维链机制 - 模型基于 MoT 架构,集成了「规划专家」和「动作专家」两个模块,实现了多模态手册生成和动作执行之间的连贯协作 [14] - 引入了「说明书思维链」推理机制,该机制通过显式与隐式两条路径影响动作生成 [15] - 显式路径将规划专家预测的目标位置以视觉提示形式叠加在当前图像上,构成带有明显操作区域提示的「提示图」,直接指导动作专家 [19] - 隐式路径将手册生成时产生的内部特征通过专门设计的注意力掩码传递给动作专家,在潜在空间中提供持续的隐式引导 [19] - 消融实验表明,去掉显式或隐式路径中的任一路径都会显著降低长任务中的成功率,说明两者结合才能兼顾精度与稳健性 [19] 三阶段训练策略 - **第一阶段**:基于互联网机器人数据集,筛选与装配和重排相关的轨迹,构建超过 40 万条示例的预训练集,只更新动作专家,学习抓取、搬运和放置技能 [20] - **第二阶段**:利用基于三维高斯表示的数字孪生工具,对乐高板、积木和常见物体进行三维重建,在虚拟空间中合成上万帧带有精确标注的手册数据,用于训练规划专家 [20][23] - **第三阶段**:在真实双臂平台上通过遥操作采集专家示范轨迹,对规划与动作两个专家进行联合微调,使模型在真实环境中的规划–执行闭环更贴合物理世界 [21] 实验性能:真机与仿真 - **真机实验**:在 Franka 双臂平台上测试了 2D 乐高组装、3D 乐高组装和物体重新排列三个长周期任务 [24] - **手册生成质量**:规划专家在 300 个未见过的测试样本上生成了高质量的中间图像,例如 2D 乐高组装的 PSNR 达 29.01,物体重新排列的 FID 分数为 24.46,2D 乐高组装的 MAE 分数为 3.23,证明了生成图像的真实性、保真度和位置预测的精确性 [24][27] - **动作生成成功率**:在所有三个真实世界长周期任务中均取得了最高成功率,相比最强的分层基线,最终任务完成率提高了 15% 到 30%,平均成功率高出 32% [7][28] - **仿真实验**:在 RLBench 的 10 个仿真任务上取得了 70% 的平均成功率,超越了 SOTA 方法 π0 的 63% [31][32] 消融与泛化能力 - 消融实验证明,说明书中所有模态信息和隐式思维链推理对于解决长周期、目标明确的操作任务是不可或缺的,两者结合才能达到最佳性能 [33] - 模型在未见过的背景、物体形状和光照变化下表现出鲁棒的泛化能力,例如在背景变化下任务成功率为 0.65,仅下降 23%,优于基线模型的下降 25% [37]
星动纪元端到端原生机器人大模型ERA-42亮相,引领具身大模型进入灵巧操作时代
IPO早知道· 2024-12-24 02:56
星动纪元原生机器人大模型ERA-42 - 世界范围内首个真正的五指灵巧手具身大模型,开启具身大模型的通用灵巧操作时代 [6] - 仅通过同一个具身大模型实现五指灵巧手像人手一样使用多种工具完成上百种灵巧复杂操作任务 [5] - 模型不需要预编程技能,基于泛化和自适应性,能在不到2小时内通过少量数据学会新任务 [5] - 具备预测能力、泛化能力、自适应能力和规模化能力,初步体现"Scaling效应" [6] - 结合全新硬件平台,可快速实现具身智能体软硬件协同进化和商业化落地 [6] 星动XHAND1硬件平台 - 自研五指灵巧手拥有12个主动自由度,采用纯电驱方式,实现全自主五指关节驱动 [8] - 每个手指配备高分辨率(>100点)触觉阵列传感器,提供精确三维力触觉和温度信息 [8] - 单手最大握力达80N,负载可达25kg,展现高性能作业能力 [8] - 协同ERA-42大模型为实现复杂灵巧操作任务奠定基础 [8] 应用前景 - 通用人形机器人任务通用性和泛化性将大幅提升 [9] - 结合复杂地形行走奔跑能力及上下肢协同作业能力,潜在应用场景更加多元化 [9] - 推动原生通用具身智能体的产业化落地 [9]