Workflow
解耦空间表征
icon
搜索文档
告别「2D错觉」,SpatialActor通过解耦语义与几何,为具身智能注入强鲁棒空间基因
机器之心· 2025-12-05 03:02
核心技术:SpatialActor框架 - 提出“双流解耦-融合”架构,将语义信息(是什么)与空间几何信息(在哪里、形状如何)明确分离开来,实现语义流与空间流的解耦与后期融合 [4][7] - 引入显式的3D空间编码器与强大的视觉语言模型结合,使机器人不仅能理解指令,更能感知三维空间 [4] - 采用独立的视觉与深度编码器,通过语义引导几何模块和空间Transformer生成优化后的几何表征并实现精确的2D至3D映射 [10][11][13] 核心组件:语义引导几何模块 - SGM模块通过冻结的大规模预训练深度估计专家模型从RGB输入中提取鲁棒但粗粒度的几何先验,同时利用深度编码器提取细粒度但含噪的几何特征 [11] - 采用多尺度门控机制自适应地融合鲁棒的几何先验与含噪的深度特征,生成在保留细微细节的同时降低噪声的优化几何表征 [11] - 该设计解决了现实世界深度测量噪声问题,利用RGB图像的高信噪比语义线索来引导几何特征生成 [11] 核心组件:空间Transformer - SPT模块将视觉得到的空间特征与机器人本体感知信息融合,利用相机参数和深度信息将图像像素坐标转换为机器人基座坐标系下的三维坐标 [13] - 采用旋转位置编码技术将三维几何信息嵌入特征中,赋予其低层空间感知能力 [13] - 依次执行视图级和场景级注意力机制,优化单视图内部表征并聚合所有视图与语言指令特征,实现跨模态的全局上下文融合 [13] 性能表现:仿真基准测试 - 在RLBench仿真测试中取得87.4%的平均成功率,超越此前SOTA模型RVT-2达6.0个百分点 [16] - 在18个任务及其249种变体上表现优异,在需要高空间精度的任务中优势显著,如Insert Peg任务优于RVT-2达53.3个百分点,Sort Shape任务优于38.3个百分点 [16] - 整体性能达到SOTA水平,在多个具体任务上表现突出 [4][16] 性能表现:噪声鲁棒性 - 在不同强度噪声条件下性能显著提升,轻、中、重度噪声下平均成功率分别比RVT-2高出13.9%、16.9%和19.4个百分点 [19] - 在需要高精度对位的任务中优势更为突出,Insert Peg任务在三档噪声下分别高出RVT-2达88.0、78.6和61.3个百分点 [19] - 展现出对噪声干扰的强鲁棒性,特别是在复杂几何任务中表现稳定 [19] 性能表现:真实世界验证 - 真机实验中使用WidowX单臂机器人,在8个不同任务共计15种变体上测试,平均成功率比RVT-2提升约20个百分点,达到63% [23] - 在物体、接收物体、光照和背景变化的挑战性条件下仍保持高水平表现,证明其在复杂真实场景中的强大鲁棒性与泛化能力 [23] - 在具体任务如Pick Glue to Box任务成功率从50%提升至85%,Push Button任务从67%提升至90% [23] 行业意义与前瞻 - 该工作解决了机器人操作模型依赖2D图像导致的深度信息丢失和3D几何结构缺失问题 [2] - 论文已被收录为AAAI 2026 Oral,并将于近期开源,为行业提供新的技术解决方案 [4] - 团队还提出MemoryVLA,引入感知-认知记忆机制,解决机器人操作中的时序理解和长程决策问题 [28]