通用抓取机器人

搜索文档
RAGNet: 从“看得见”到“想得通”,再到“抓得准”的通用机器人之路 (ICCV'25)
具身智能之心· 2025-08-04 01:59
通用抓取技术研究 - 核心观点:机器人需同时具备"功能推理+精细操作"能力以实现开放世界通用抓取 香港中文大学等机构联合推出RAGNet数据集与AffordanceNet框架 通过语言指令对齐实现复杂场景抓取[3] - 技术突破点: - 数据集创新:RAGNet包含27.3万张图像/180类物体/2.6万条指令 覆盖真实场景/机器人平台/第一视角[8] - 标注创新:采用三级指令体系(模板/简单推理/困难推理) 示例包括"请分割锤子"到"需要敲钉子的工具"等模糊指令[10] - 模型架构:AffordanceVLM改进LISA模型 增加系统提示词与<AFF> token 结合Pose Generator实现3D抓取位姿预测[12] 性能验证 - 零样本检测:在GraspNet novel和3DOI数据集上 AffordanceNet的gloU指标达45.6和37.4 显著超越VLPart+SAM2(40.9)等基线[14] - 真机测试:UR5平台抓取成功率70% 较传统GraspNet(32%)提升118% 在炒锅/螺丝刀等工具上表现突出(80%成功率)[16][17] 行业影响 - 数据价值:提供273k图像+26k指令的开源数据集 标注成本降低50%以上 支持自动数据采集飞轮[23] - 技术定位:作为VLA框架的3D几何语义前置模块 增强感知(RGB-D→3D Mask)与语言理解(三级指令体系)能力[18] - 应用前景:实现从物体分类到功能执行的跨越 未来或支持"帮我修书架"等复杂家庭任务自主完成[20]