非抓握操作

搜索文档
机器人不只会抓和放!北大x银河通用「世界-动作模型」来了
自动驾驶之心· 2025-08-04 07:31
点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 本文的作者团队来自北京大学和银河通用机器人公司。第一作者为北京大学计算机学院前沿计算研究中心博士生吕江燃,主要研究方向为具身智能,聚焦于世 界模型和机器人的灵巧操作,论文发表于 ICCV,TPAMI,RSS,CoRL,RAL 等机器人顶会顶刊。本文的通讯作者为北京大学计算机学院教授王亦洲和 北京 大学助理教授、银河通用创始人及CTO 王鹤。 尽管当前的机器人视觉语言操作模型(VLA)展现出一定的泛化能力,但其操作模式仍以准静态的抓取与放置(pick-and-place)为主。相比之下,人类在操作物 体时常常采用推动、翻转等更加灵活的方式。若机器人仅掌握抓取,将难以应对现实环境中的复杂任务。例如,抓起一张薄薄的银行卡,通常需要先将其推到桌 边;而抓取一个宽大的盒子,则往往需要先将其翻转立起(如图 1 所示): 这些技能都属于一个重要的领域:非抓握操作(Non-prehensile Manipulation) ...
机器人不只会抓和放!北大x银河通用「世界-动作模型」赋能全面泛化的非抓握技能
具身智能之心· 2025-08-01 16:02
文章核心观点 - 北京大学与银河通用机器人公司联合提出自适应性【世界-动作】模型DyWA,旨在解决机器人非抓握操作中的复杂物理交互问题,该模型通过协同学习系统动力学和精细操作策略,显著提升泛化能力[4] - DyWA模型采用联合建模动作与未来状态的方法,使机器人具备"想象力",同时引入动力学自适应机制,从历史观测中推理隐含物理属性,实现自适应物理交互[9][10][11] - 该模型仅依赖单视角点云输入,通过大规模域随机化仿真训练后,可实现从仿真到真实机器人的零样本迁移,在多种复杂场景下展现全面泛化能力[12][18][22][24] 非抓握操作挑战 - 非抓握操作涉及连续接触、多变摩擦力等复杂物理交互,微小摩擦变化可导致完全不同的运动轨迹[6] - 现实感知系统面临单视角点云严重遮挡、多视角设置昂贵等问题,已有方法假设的多视角输入和位姿追踪模块在现实中难以部署[7] - 传统物理建模方法依赖精确的物体质量、摩擦系数等难以获取的参数,而现有学习方法缺乏对潜在动力学属性的建模能力[6] DyWA核心方法 - 采用teacher-student框架,将全知信息训练的教师策略蒸馏给仅接收点云输入的学生模型,同时预测动作带来的未来状态[9] - 引入动态适应模块,通过分析历史观测序列推理隐含物理属性,并通过FiLM机制调控世界模型中间特征[10][11] - 设计上仅依赖单个深度相机获取的点云输入,通过大规模物理参数随机化训练实现零样本迁移[12] 实验结果 - 在仿真benchmark中,DyWA在已知状态(三视角)、未知状态(三视角)和未知状态(单视角)三种设置下均显著优于基线方法,成功率超过80%[15][16] - 真机实验显示DyWA对物体几何形状和质量分布均具有泛化能力,能将未见过物体推到目标位姿,成功率接近70%[18] - 可适应各种摩擦面,在高摩擦瑜伽垫和低摩擦塑料板上都能维持操作鲁棒性,并展现强大的闭环自适应能力[22][24] 应用协同 - DyWA可与抓取策略及视觉语言大模型(VLM)协同工作,先通过非抓握操作调整物体姿态,再由抓取策略完成任务,提升复杂场景整体成功率[25]
机器人不只会抓和放!北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能
机器之心· 2025-08-01 01:30
核心观点 - 北京大学与银河通用机器人公司联合提出自适应性世界-动作模型DyWA,用于解决机器人非抓握操作中的复杂物理交互问题 [3][10] - DyWA通过联合建模动作与未来状态、动力学自适应机制和单视角输入设计,实现了对摩擦、质量等隐含因素的适应能力 [11][12][14] - 该方法在仿真和真实环境中展现出全面泛化能力,成功率显著优于基线方法,最高达到85% [17][18][20] 非抓握操作技术难点 - 复杂接触建模:涉及连续接触、多变摩擦力等物理交互,微小变化导致轨迹差异 [5] - 现实感知受限:单视角点云遮挡严重,多视角设置昂贵且难以部署 [8][9] - 传统方法依赖精确物理参数或仅关注几何信息,难以应对真实扰动 [7] DyWA核心技术 - 世界-动作模型:采用teacher-student框架,同时预测动作和未来状态,隐式建模动力学过程 [11] - 动力学自适应:通过历史观测推理隐含物理属性,用FiLM机制动态调整交互策略 [12][13] - 部署可行性:仅需单深度相机输入,通过大规模域随机化训练实现零样本迁移 [14] 性能表现 - 仿真benchmark显示在三种设置下成功率均超80%,最高达85.8% [17][18] - 真机实验对未见过物体实现70%成功率,适应不同摩擦面和质量分布 [20][24] - 与抓取策略协同工作可提升复杂场景整体成功率 [26] 应用场景 - 处理薄片、大型物体、复杂几何或密集场景下的操作任务 [3] - 实现推、翻等灵活操作,如推动银行卡、翻转宽大盒子等 [1][20]