文章核心观点 - 由北京智源研究院、清华大学、南洋理工大学等机构联合提出的OnePoseViaGen技术,是解决具身智能领域6D物体位姿估计关键瓶颈的颠覆性方案 [2][3] - 该方案无需预设3D模型,仅凭单张参考图即可完成未知物体的精准6D位姿估计,在权威基准测试和真实机器人操作中均显著超越现有主流方法 [3][16] - 该技术通过“单视图3D生成 + 粗精对齐 + 文本引导域随机化”的组合拳,为机器人与物理世界的精准交互补上了“空间感知”的关键一环,推动机器人从“特定场景”向“开放世界”交互迈进 [3][30] 技术方案与流程 - 方案遵循“先解决3D模型缺失问题,再校准真实尺度与位姿,最后缩小域差距提升鲁棒性”的递进逻辑,整体流程环环相扣 [6][8] - 基于法向量引导从单张RGB-D锚点图像生成标准化的3D纹理网格模型,无需多视图或预训练3D模型 [9][10] - 采用粗到精的两步对齐策略:粗对齐通过多视图渲染与特征匹配快速获得初始尺度和位姿;精对齐通过迭代优化进一步提升位姿与尺度的精度 [11][13][14] - 引入文本引导的生成式域随机化策略,通过生成结构一致但纹理多样的3D变体并渲染合成数据,以缩小生成模型与真实图像的域差距,提升模型鲁棒性 [15] 性能表现与基准测试 - 在YCBInEOAT数据集上,平均ADD指标达到81.27%,平均ADD-S指标达到93.10%,远超Oryon(ADD 1.1%)、LoFTR(ADD 4.0%)和Any6D(ADD 45.6%)等主流方法 [17] - 在高挑战性物体上表现突出,例如在“sugar_box1”任务中ADD达75.63%(Any6D为14.3%),在“tomato_soup_can_yalehand0”任务中ADD达77.72%(Any6D为0.0%) [17] - 在TOYL数据集上,AR指标达55.7%,比次优方法Any6D(43.3%)高出12.4个百分点;MSSD指标达67.0%,VSD指标达35.1%,比Any6D(15.8%)高出19.3个百分点 [18] - 在高遮挡无纹理的LM-O数据集上,整体AR指标达到74.8%,远超GigaPose(17.5%)和Any6D(28.6%),即使在严重遮挡情况下估计的渲染轮廓仍与真实物体边缘高度重合 [19][21] 真实世界应用验证 - 在真实机器人操作实验中,整体任务成功率达到73.3%,显著高于基线方法SRT3D(6.7%)和DeepAC(16.7%) [23][24] - 成功完成单臂抓取-放置和双臂交接两类任务,即使在抓取过程中出现手部遮挡,仍能通过3D模型的几何约束精准估计位姿,避免抓取失败 [22][26] - 定性结果显示生成的3D模型与真实物体在纹理、结构上高度一致,估计的位姿能精准指导机械臂完成灵巧抓取操作 [26] 技术模块必要性验证 - 消融实验表明,完整的“粗到精对齐”模块对性能至关重要,移除该模块后AR指标从55.7%降至0.0% [27][29] - 生成式域随机化微调被证明是提升方法鲁棒性的关键,使用多样化微调的策略相比朴素微调或无需微调能显著提升性能 [27][29]
为什么 VLA 能叠毛巾,却测不准物体位姿?
自动驾驶之心·2025-09-24 23:33