Workflow
视觉思维链
icon
搜索文档
端到端基础模型!VCoT-Grasp: 视觉思维链增强的机器人抓取检测大模型
具身智能之心· 2025-10-19 13:50
技术方法与创新 - 提出VCoT-Grasp模型,一种端到端的语言驱动抓取基础模型,通过引入视觉思维链(Visual Chain-of-Thought)推理来增强视觉理解能力 [2][5][7] - 模型采用两阶段推理:第一阶段根据指令预测目标物品的边界框(bounding box),第二阶段将边界框图像、原图像和指令共同输入,解码出最终抓取动作 [7] - 模型架构基于PaliGemma-3B视觉语言模型,在预测动作时,采用离散化token形式的动作头(LM Head)性能最优,平均抓取成功率可达69.16% [7][8][12] 数据集构建 - 为训练模型构建了高质量数据集VCoT-GraspSet,该数据集在Grasp Anything基础上通过开集检测模型YOLO-World进行优化 [9] - 数据集包含167K张合成图像和1.36M抓取标签,以及400张实机采集数据和1200个手动标注的抓取标签 [9][10] 性能表现 - 在数据集测试中,VCoT-Grasp模型(使用LM Head)在已见物体上的抓取成功率为83.60%,在未见物体上为58.98%,平均成功率为69.16%,显著优于对比方法 [11][12] - 实机测试显示,VCoT-Grasp在15种已见物体上的整体抓取成功率为0.71(71%),优于GR-ConvNet+CLIP的0.55和RT-Grasp的0.53 [12] - 模型在面对背景变化和干扰物时表现出强鲁棒性,在原始场景、背景变化和存在干扰物的场景下,抓取成功次数分别为19/25、21/25和16/25 [16]