技术方案核心观点 - 提出了一种名为OnePoseViaGen的颠覆性解决方案,旨在解决具身智能在6D物体位姿估计上的关键瓶颈,该方法无需预设3D模型,仅凭一张参考图即可完成对未知物体的6D位姿估计 [2] - 该方案通过“单视图3D生成 + 粗精对齐 + 文本引导域随机化”的组合拳,构建了“生成模型-真实物体-空间姿态”的闭环关联,为机器人与物理世界的精准交互提供了关键的空间感知能力 [2] - OnePoseViaGen是首个将单图3D生成与位姿估计融合的技术流程,证明生成式建模可直接提升位姿估计性能,无需依赖3D模型或多视图 [31] 技术框架与实现路径 - 方案遵循“先解决3D模型缺失问题,再校准真实尺度与位姿,最后缩小域差距提升鲁棒性”的递进逻辑,逐步突破单样本6D位姿估计的三大核心挑战 [5] - 基于法向量引导从单张RGB-D锚点图像生成3D纹理网格,无需多视图或预训练3D模型即可快速生成高保真的3D表示 [8][9] - 设计了“粗到精”的两步尺度-位姿联合对齐策略,通过多视图渲染、特征匹配、PnP算法和迭代优化,将归一化模型与真实世界进行精准对齐 [10][12][13] - 采用文本引导的生成式域随机化策略,通过生成纹理多样的3D变体和合成数据渲染来微调位姿估计器,显著提升模型在面对遮挡、光照变化等真实场景时的鲁棒性 [14] 性能表现与基准测试 - 在YCBInEOAT数据集上,OnePoseViaGen的平均ADD指标达到81.27%,平均ADD-S指标达到93.10%,远超Oryon(ADD 1.1%)、LoFTR(ADD 4.0%)和Any6D(ADD 45.6%)等主流方法 [16][17] - 在高挑战性物体上表现突出,例如在“sugar box1”任务中ADD达到75.63%(Any6D为14.3%),在“tomato soup can yalehand0”任务中ADD达到77.72%(Any6D为0.0%完全失效) [17][19] - 在TOYL数据集上,AR指标达到55.7%,比次优方法Any6D(43.3%)高出12.4个百分点,距离类指标MSSD(67.0%)和MSPD(65.1%)也显著领先 [18] - 在高遮挡无纹理的LM-O数据集上,整体AR达到74.8%,远超GigaPose(17.5%)和Any6D(28.6%),证明了其强大的抗遮挡能力 [20] 真实世界应用验证 - 在真实机器人操作实验中,OnePoseViaGen支撑机械臂完成灵巧抓取的整体成功率高达73.3%,远超基线方法SRT3D(6.7%)和DeepAC(16.7%) [24][25] - 实验设计包括单臂抓取-放置和双臂交接两类任务,成功标准严格,涵盖了抓取稳定、运输无碰撞、放置后稳定等多个环节 [23] - 即使在抓取过程中出现手部遮挡,该方法仍能通过3D模型的几何约束精准估计位姿,避免因遮挡导致的抓取失败,展示了其在实际应用中的实用性 [27] 核心模块有效性验证 - 消融实验证实,“粗到精对齐”和“生成式域随机化微调”是提升方法性能与鲁棒性的关键模块 [28] - 在TYOL数据集上,完整模型的AR为55.7%,而移除精对齐模块后AR降至32.9%,移除整个对齐模块后AR降至0.0%,凸显了尺度-位姿联合优化的必要性 [30] - 生成式域随机化微调对提升模型在真实世界的适应性起到了决定性作用 [28][30]
为什么 VLA 能叠毛巾,却测不准物体位姿?解读具身 “空间感知” 补全
具身智能之心·2025-09-23 00:03