Workflow
ReconVLA
icon
搜索文档
ReconVLA:基于重建式VLA模型的机器人感知方法
具身智能之心· 2025-08-29 16:03
视觉-语言-动作模型技术突破 - 提出重建式视觉-语言-动作模型ReconVLA 通过目标区域重建任务实现隐式视觉定位 显著提升机器人操控精度[3][8][14] - 核心创新在于引入扩散变换器进行高保真区域重建 迫使模型将注意力像聚光灯般聚焦关键物体[3][11][16] - 在CALVIN长时序任务中首任务成功率接近95% 平均完成子任务数达3.95个[9][20][21] 技术实现架构 - 采用双分支协同架构:视觉重建分支负责目标区域编码与重建 动作预测分支生成离散动作token驱动机械臂[13] - 利用冻结视觉tokenizer将凝视区域编码为潜在token 保留细粒度视觉信息[3][13] - 通过联合优化重建损失与动作预测损失 增强视觉表示可迁移性与鲁棒性[13][19] 数据集与预训练 - 构建包含10万条轨迹、200万样本的大规模预训练数据集 聚合BridgeData V2、LIBERO、CALVIN等多个开源数据集[8][19] - 采用自动化标注流程 利用微调Grounding DINO自动分割指令对应的凝视区域图像[8][19] - 消融实验表明大规模预训练使模型在CALVIN任务成功率从88.8%提升至95.6%[19][20] 性能表现对比 - 在ABCD→D长时程任务中以70.5%成功率完成全部5个子任务 平均完成4.23个子任务 显著优于主流方案[21][22] - 对比显式定位与思维链定位范式 隐式定位在保持端到端训练优势的同时避免坐标回归困难[10][11] - 真实机器人测试中 对未见物体任务保持40%以上成功率 远超OpenVLA和PD-VLA的近乎零成功率[25][26] 实际应用验证 - 在六自由度机械臂平台上执行叠放碗具、水果放置、翻转杯子、清理餐桌等任务 成功率高达90%[25] - 视觉系统采用双深度相机配置:底座视角RealSense D515和末端执行器视角ORBBEC Dabai[25] - 注意力热图显示模型能动态调整凝视区域 在干扰物多的场景中精准锁定目标物体[4][9]