RAGNet: 从“看得见”到“想得通”,再到“抓得准”的通用机器人之路 (ICCV'25)
具身智能之心·2025-08-04 01:59
通用抓取技术研究 - 核心观点:机器人需同时具备"功能推理+精细操作"能力以实现开放世界通用抓取 香港中文大学等机构联合推出RAGNet数据集与AffordanceNet框架 通过语言指令对齐实现复杂场景抓取[3] - 技术突破点: - 数据集创新:RAGNet包含27.3万张图像/180类物体/2.6万条指令 覆盖真实场景/机器人平台/第一视角[8] - 标注创新:采用三级指令体系(模板/简单推理/困难推理) 示例包括"请分割锤子"到"需要敲钉子的工具"等模糊指令[10] - 模型架构:AffordanceVLM改进LISA模型 增加系统提示词与