Workflow
6D物体位姿估计
icon
搜索文档
为什么 VLA 能叠毛巾,却测不准物体位姿?
自动驾驶之心· 2025-09-24 23:33
文章核心观点 - 由北京智源研究院、清华大学、南洋理工大学等机构联合提出的OnePoseViaGen技术,是解决具身智能领域6D物体位姿估计关键瓶颈的颠覆性方案 [2][3] - 该方案无需预设3D模型,仅凭单张参考图即可完成未知物体的精准6D位姿估计,在权威基准测试和真实机器人操作中均显著超越现有主流方法 [3][16] - 该技术通过“单视图3D生成 + 粗精对齐 + 文本引导域随机化”的组合拳,为机器人与物理世界的精准交互补上了“空间感知”的关键一环,推动机器人从“特定场景”向“开放世界”交互迈进 [3][30] 技术方案与流程 - 方案遵循“先解决3D模型缺失问题,再校准真实尺度与位姿,最后缩小域差距提升鲁棒性”的递进逻辑,整体流程环环相扣 [6][8] - 基于法向量引导从单张RGB-D锚点图像生成标准化的3D纹理网格模型,无需多视图或预训练3D模型 [9][10] - 采用粗到精的两步对齐策略:粗对齐通过多视图渲染与特征匹配快速获得初始尺度和位姿;精对齐通过迭代优化进一步提升位姿与尺度的精度 [11][13][14] - 引入文本引导的生成式域随机化策略,通过生成结构一致但纹理多样的3D变体并渲染合成数据,以缩小生成模型与真实图像的域差距,提升模型鲁棒性 [15] 性能表现与基准测试 - 在YCBInEOAT数据集上,平均ADD指标达到81.27%,平均ADD-S指标达到93.10%,远超Oryon(ADD 1.1%)、LoFTR(ADD 4.0%)和Any6D(ADD 45.6%)等主流方法 [17] - 在高挑战性物体上表现突出,例如在“sugar_box1”任务中ADD达75.63%(Any6D为14.3%),在“tomato_soup_can_yalehand0”任务中ADD达77.72%(Any6D为0.0%) [17] - 在TOYL数据集上,AR指标达55.7%,比次优方法Any6D(43.3%)高出12.4个百分点;MSSD指标达67.0%,VSD指标达35.1%,比Any6D(15.8%)高出19.3个百分点 [18] - 在高遮挡无纹理的LM-O数据集上,整体AR指标达到74.8%,远超GigaPose(17.5%)和Any6D(28.6%),即使在严重遮挡情况下估计的渲染轮廓仍与真实物体边缘高度重合 [19][21] 真实世界应用验证 - 在真实机器人操作实验中,整体任务成功率达到73.3%,显著高于基线方法SRT3D(6.7%)和DeepAC(16.7%) [23][24] - 成功完成单臂抓取-放置和双臂交接两类任务,即使在抓取过程中出现手部遮挡,仍能通过3D模型的几何约束精准估计位姿,避免抓取失败 [22][26] - 定性结果显示生成的3D模型与真实物体在纹理、结构上高度一致,估计的位姿能精准指导机械臂完成灵巧抓取操作 [26] 技术模块必要性验证 - 消融实验表明,完整的“粗到精对齐”模块对性能至关重要,移除该模块后AR指标从55.7%降至0.0% [27][29] - 生成式域随机化微调被证明是提升方法鲁棒性的关键,使用多样化微调的策略相比朴素微调或无需微调能显著提升性能 [27][29]
为什么 VLA 能叠毛巾,却测不准物体位姿?解读具身 “空间感知” 补全
具身智能之心· 2025-09-23 00:03
技术方案核心观点 - 提出了一种名为OnePoseViaGen的颠覆性解决方案,旨在解决具身智能在6D物体位姿估计上的关键瓶颈,该方法无需预设3D模型,仅凭一张参考图即可完成对未知物体的6D位姿估计 [2] - 该方案通过“单视图3D生成 + 粗精对齐 + 文本引导域随机化”的组合拳,构建了“生成模型-真实物体-空间姿态”的闭环关联,为机器人与物理世界的精准交互提供了关键的空间感知能力 [2] - OnePoseViaGen是首个将单图3D生成与位姿估计融合的技术流程,证明生成式建模可直接提升位姿估计性能,无需依赖3D模型或多视图 [31] 技术框架与实现路径 - 方案遵循“先解决3D模型缺失问题,再校准真实尺度与位姿,最后缩小域差距提升鲁棒性”的递进逻辑,逐步突破单样本6D位姿估计的三大核心挑战 [5] - 基于法向量引导从单张RGB-D锚点图像生成3D纹理网格,无需多视图或预训练3D模型即可快速生成高保真的3D表示 [8][9] - 设计了“粗到精”的两步尺度-位姿联合对齐策略,通过多视图渲染、特征匹配、PnP算法和迭代优化,将归一化模型与真实世界进行精准对齐 [10][12][13] - 采用文本引导的生成式域随机化策略,通过生成纹理多样的3D变体和合成数据渲染来微调位姿估计器,显著提升模型在面对遮挡、光照变化等真实场景时的鲁棒性 [14] 性能表现与基准测试 - 在YCBInEOAT数据集上,OnePoseViaGen的平均ADD指标达到81.27%,平均ADD-S指标达到93.10%,远超Oryon(ADD 1.1%)、LoFTR(ADD 4.0%)和Any6D(ADD 45.6%)等主流方法 [16][17] - 在高挑战性物体上表现突出,例如在“sugar box1”任务中ADD达到75.63%(Any6D为14.3%),在“tomato soup can yalehand0”任务中ADD达到77.72%(Any6D为0.0%完全失效) [17][19] - 在TOYL数据集上,AR指标达到55.7%,比次优方法Any6D(43.3%)高出12.4个百分点,距离类指标MSSD(67.0%)和MSPD(65.1%)也显著领先 [18] - 在高遮挡无纹理的LM-O数据集上,整体AR达到74.8%,远超GigaPose(17.5%)和Any6D(28.6%),证明了其强大的抗遮挡能力 [20] 真实世界应用验证 - 在真实机器人操作实验中,OnePoseViaGen支撑机械臂完成灵巧抓取的整体成功率高达73.3%,远超基线方法SRT3D(6.7%)和DeepAC(16.7%) [24][25] - 实验设计包括单臂抓取-放置和双臂交接两类任务,成功标准严格,涵盖了抓取稳定、运输无碰撞、放置后稳定等多个环节 [23] - 即使在抓取过程中出现手部遮挡,该方法仍能通过3D模型的几何约束精准估计位姿,避免因遮挡导致的抓取失败,展示了其在实际应用中的实用性 [27] 核心模块有效性验证 - 消融实验证实,“粗到精对齐”和“生成式域随机化微调”是提升方法性能与鲁棒性的关键模块 [28] - 在TYOL数据集上,完整模型的AR为55.7%,而移除精对齐模块后AR降至32.9%,移除整个对齐模块后AR降至0.0%,凸显了尺度-位姿联合优化的必要性 [30] - 生成式域随机化微调对提升模型在真实世界的适应性起到了决定性作用 [28][30]
为什么 VLA 能叠毛巾,却测不准物体位姿?具身智能的 “空间感知” 补全是怎么做的?
具身智能之心· 2025-09-22 09:00
文章核心观点 - 文章介绍了一种名为OnePoseViaGen的颠覆性解决方案,旨在解决具身智能(如机器人)在现实世界中精准操作未知物体时面临的关键瓶颈——6D物体位姿估计 [2] - 该方法的核心创新在于,仅需单张参考图像,无需预先扫描的3D模型或多视角图像,即可通过单视图3D生成、粗精对齐和文本引导域随机化等技术,实现对未知物体的高精度6D位姿估计 [2] - 该方法在权威基准测试和真实机器人操作实验中均展现出显著优于现有主流方法的性能,为机器人从特定场景迈向开放世界交互提供了关键技术支撑 [2][31] 关键研究成果:OnePoseViaGen框架 - 该框架遵循递进逻辑,旨在解决单样本6D位姿估计的三大核心挑战:3D模型缺失、真实尺度与位姿校准、以及生成模型与真实图像的域差距 [5] - 任务定义为:基于单张RGB-D锚点图像和查询图像,估计物体的6D刚性变换(旋转和平移)并确定尺度因子,将生成的标准化模型校准到真实世界尺度 [7] 基于法向量引导的3D纹理网格生成 - 第一步解决“3D模型缺失”问题,基于改进的Hi3DGen模型,仅输入单张RGB-D锚点图像及其生成的法向量图,即可快速生成标准化的3D纹理模型,无需多视图或预训练模型 [8][9] 粗到精的尺度-位姿联合对齐 - 为解决生成的归一化模型与真实世界不匹配的问题,设计了两步对齐策略 [10] - **粗对齐**:通过多视图渲染、特征匹配和PnP算法,快速获得一个包含尺度模糊的初始位姿,并通过优化求解全局尺度因子 [12] - **精对齐**:基于粗对齐结果,采用改进的FoundationPose框架进行迭代优化,更新位姿并重新优化尺度,最终得到与真实世界尺度一致的3D模型及其精准位姿 [13] 文本引导的生成式域随机化 - 为解决单张锚点图像生成的模型缺乏外观多样性以及与真实图像的域差距问题,设计了文本引导的生成式域随机化策略 [14] - 以生成的3D模型和文本提示为输入,通过Trellis模型生成一系列结构一致但纹理多样的3D变体 [14] - 在随机条件下渲染这些变体构建大规模合成数据集,并用于微调位姿估计器,从而提升模型对遮挡、光照变化的鲁棒性 [14] 核心结果1:基准数据集验证 - **YCBInEOAT数据集**:OnePoseViaGen的平均ADD指标达81.27%,平均ADD-S指标达93.10%,远超Oryon(ADD 1.1%)、LoFTR(ADD 4.0%)、Gedi(ADD 7.7%)和Any6D(ADD 45.6%)等主流方法 [17] - 在高挑战场景下优势显著,例如在“sugar box1”物体上,Any6D的ADD仅14.3%,而OnePoseViaGen达到75.63%;在“tomato soup can yalehand0”上,Any6D完全失效(ADD 0.0%),而OnePoseViaGen达到77.72% [17][19] - **TOYL数据集**:在复杂光照与远距离挑战下,OnePoseViaGen的AR指标达到55.7%,比次优的Any6D(43.3%)高12.4个百分点;其MSSD、MSPD、VSD等距离类指标也全面领先 [18] - **LM-O数据集**:在高遮挡无纹理的挑战性场景中,OnePoseViaGen的整体AR指标达到74.8%,远超GigaPose(17.5%)和Any6D(28.6%) [20] - 定性结果显示,即使在物体被严重遮挡的情况下,估计的位姿轮廓仍与真实物体边缘高度重合,验证了其强大的抗遮挡能力 [22] 核心结果2:真实机器人操作验证 - 在真实机器人抓取与放置任务中,OnePoseViaGen指导下的整体成功率高达73.3%,远超基线方法SRT3D(6.7%)和DeepAC(16.7%) [24][25] - 实验涉及15种物体,任务要求抓取稳定、运输无碰撞且放置后稳定,证明了该方法的落地实用性 [23] - 定性结果显示,生成的3D模型与真实物体高度一致,估计的位姿能精准指导机械臂抓取,即使存在手部遮挡也能通过几何约束保持估计精度 [27] 核心结果3:消融实验 - 消融实验验证了“粗到精对齐”和“生成式域随机化微调”两大核心模块的必要性 [28] - 在TOYL数据集上,完整模型的AR为55.7%,移除精对齐模块后AR降至32.9%,同时移除粗精对齐模块后AR降至0.0%,证明了逐步对齐策略的关键作用 [30] - 使用多样化纹理微调后的模型AR为52.4%,而未使用微调或使用朴素微调的模型AR分别仅为12.6%和11.4%,证明了文本引导的生成式域随机化是提升方法鲁棒性的关键 [30]