为什么 VLA 能叠毛巾,却测不准物体位姿?具身智能的 “空间感知” 补全是怎么做的?
具身智能之心·2025-09-22 09:00

文章核心观点 - 文章介绍了一种名为OnePoseViaGen的颠覆性解决方案,旨在解决具身智能(如机器人)在现实世界中精准操作未知物体时面临的关键瓶颈——6D物体位姿估计 [2] - 该方法的核心创新在于,仅需单张参考图像,无需预先扫描的3D模型或多视角图像,即可通过单视图3D生成、粗精对齐和文本引导域随机化等技术,实现对未知物体的高精度6D位姿估计 [2] - 该方法在权威基准测试和真实机器人操作实验中均展现出显著优于现有主流方法的性能,为机器人从特定场景迈向开放世界交互提供了关键技术支撑 [2][31] 关键研究成果:OnePoseViaGen框架 - 该框架遵循递进逻辑,旨在解决单样本6D位姿估计的三大核心挑战:3D模型缺失、真实尺度与位姿校准、以及生成模型与真实图像的域差距 [5] - 任务定义为:基于单张RGB-D锚点图像和查询图像,估计物体的6D刚性变换(旋转和平移)并确定尺度因子,将生成的标准化模型校准到真实世界尺度 [7] 基于法向量引导的3D纹理网格生成 - 第一步解决“3D模型缺失”问题,基于改进的Hi3DGen模型,仅输入单张RGB-D锚点图像及其生成的法向量图,即可快速生成标准化的3D纹理模型,无需多视图或预训练模型 [8][9] 粗到精的尺度-位姿联合对齐 - 为解决生成的归一化模型与真实世界不匹配的问题,设计了两步对齐策略 [10] - 粗对齐:通过多视图渲染、特征匹配和PnP算法,快速获得一个包含尺度模糊的初始位姿,并通过优化求解全局尺度因子 [12] - 精对齐:基于粗对齐结果,采用改进的FoundationPose框架进行迭代优化,更新位姿并重新优化尺度,最终得到与真实世界尺度一致的3D模型及其精准位姿 [13] 文本引导的生成式域随机化 - 为解决单张锚点图像生成的模型缺乏外观多样性以及与真实图像的域差距问题,设计了文本引导的生成式域随机化策略 [14] - 以生成的3D模型和文本提示为输入,通过Trellis模型生成一系列结构一致但纹理多样的3D变体 [14] - 在随机条件下渲染这些变体构建大规模合成数据集,并用于微调位姿估计器,从而提升模型对遮挡、光照变化的鲁棒性 [14] 核心结果1:基准数据集验证 - YCBInEOAT数据集:OnePoseViaGen的平均ADD指标达81.27%,平均ADD-S指标达93.10%,远超Oryon(ADD 1.1%)、LoFTR(ADD 4.0%)、Gedi(ADD 7.7%)和Any6D(ADD 45.6%)等主流方法 [17] - 在高挑战场景下优势显著,例如在“sugar box1”物体上,Any6D的ADD仅14.3%,而OnePoseViaGen达到75.63%;在“tomato soup can yalehand0”上,Any6D完全失效(ADD 0.0%),而OnePoseViaGen达到77.72% [17][19] - TOYL数据集:在复杂光照与远距离挑战下,OnePoseViaGen的AR指标达到55.7%,比次优的Any6D(43.3%)高12.4个百分点;其MSSD、MSPD、VSD等距离类指标也全面领先 [18] - LM-O数据集:在高遮挡无纹理的挑战性场景中,OnePoseViaGen的整体AR指标达到74.8%,远超GigaPose(17.5%)和Any6D(28.6%) [20] - 定性结果显示,即使在物体被严重遮挡的情况下,估计的位姿轮廓仍与真实物体边缘高度重合,验证了其强大的抗遮挡能力 [22] 核心结果2:真实机器人操作验证 - 在真实机器人抓取与放置任务中,OnePoseViaGen指导下的整体成功率高达73.3%,远超基线方法SRT3D(6.7%)和DeepAC(16.7%) [24][25] - 实验涉及15种物体,任务要求抓取稳定、运输无碰撞且放置后稳定,证明了该方法的落地实用性 [23] - 定性结果显示,生成的3D模型与真实物体高度一致,估计的位姿能精准指导机械臂抓取,即使存在手部遮挡也能通过几何约束保持估计精度 [27] 核心结果3:消融实验 - 消融实验验证了“粗到精对齐”和“生成式域随机化微调”两大核心模块的必要性 [28] - 在TOYL数据集上,完整模型的AR为55.7%,移除精对齐模块后AR降至32.9%,同时移除粗精对齐模块后AR降至0.0%,证明了逐步对齐策略的关键作用 [30] - 使用多样化纹理微调后的模型AR为52.4%,而未使用微调或使用朴素微调的模型AR分别仅为12.6%和11.4%,证明了文本引导的生成式域随机化是提升方法鲁棒性的关键 [30]