Workflow
SpatialActor
icon
搜索文档
SpatialActor:解耦语义与几何,为具身智能注入强鲁棒空间基因
具身智能之心· 2025-12-05 16:02
文章核心观点 - 文章介绍了一种名为SpatialActor的新型机器人操作模型,其核心创新在于将语义信息与空间几何信息进行解耦,通过双流架构分别处理,以克服现有模型依赖2D图像导致的深度信息丢失和对噪声敏感的问题,从而在仿真和真实世界任务中实现了更高的成功率和鲁棒性 [1][3] 方法与架构 - **核心设计理念**:机器人操作需要语义理解与几何把控的协同,SpatialActor采用“双流解耦-融合”架构,而非训练全能端到端网络 [6] - **语义引导几何模块**:该模块通过多尺度门控机制,自适应地融合来自预训练深度专家的鲁棒几何先验与来自原始深度的细粒度但含噪的几何特征,生成优化后的高层几何表征 [10] - **空间Transformer模块**:该模块旨在建立精确的2D至3D映射并融合多模态特征,通过将空间特征与机器人本体感知信息融合,并利用相机参数转换为3D坐标,再通过视图级和场景级注意力机制优化特征,最终解码生成精确的6-DoF动作 [12] 仿真基准测试结果 - **整体性能**:在包含18个任务、249种变体的RLBench仿真基准测试中,SpatialActor的平均成功率达到了**87.4%**,超越了此前的最先进模型RVT-2(81.4%)**6.0个百分点** [13] - **高精度任务表现**:在需要高空间精度的任务上优势显著,例如在“Insert Peg”任务中成功率高达**93.3%**,优于RVT-2的40.0%,领先**53.3个百分点**;在“Sort Shape”任务中成功率为**73.3%**,优于RVT-2的35.0%,领先**38.3个百分点** [13] 噪声鲁棒性测试 - **抗噪性能**:在模拟不同强度高斯噪声的实验中,SpatialActor始终优于RVT-2。在轻度、中度和重度噪声下,平均成功率分别比RVT-2高出**13.9%、16.9%和19.4个百分点** [14] - **关键任务抗噪性**:在“Insert Peg”任务中,抗噪优势尤为突出,在三档噪声下的成功率分别比RVT-2高出**88.0、78.6和61.3个百分点** [14] 真机实验结果 - **整体有效性**:在8个不同任务、15种变体的真实机器人实验中,SpatialActor的整体平均成功率为**63%**,显著优于RVT-2的**43%**,平均提升约**20个百分点** [18][19] - **任务具体表现**:在多个任务上表现更优,例如“Pick Glue to Box”任务成功率为**85%**(RVT-2为50%),“Push Button”任务成功率为**90%**(RVT-2为67%) [18] - **泛化与鲁棒性**:在被操作物体、接收物体、光照和背景发生变化等极具挑战性的条件下,SpatialActor仍能保持高水平表现,证明了其在复杂真实场景中的强大鲁棒性与泛化能力 [19] 结论与意义 - **技术总结**:SpatialActor通过解耦语义与几何信息,并分别构建鲁棒的高层几何表征和捕捉低层空间线索,有效解决了机器人操作中精确空间理解、传感器噪声和有效交互的挑战 [21] - **实验验证**:在超过50个仿真和真实世界任务上的广泛实验表明,该框架在多样化条件下均能实现更高的成功率和强大的鲁棒性 [21] - **未来方向**:文章指出机器人操作还需解决时序理解与长程决策问题,并提及团队另一项工作MemoryVLA,该工作引入记忆机制以实现时序感知的决策 [24]
告别「2D错觉」,SpatialActor通过解耦语义与几何,为具身智能注入强鲁棒空间基因
机器之心· 2025-12-05 03:02
核心技术:SpatialActor框架 - 提出“双流解耦-融合”架构,将语义信息(是什么)与空间几何信息(在哪里、形状如何)明确分离开来,实现语义流与空间流的解耦与后期融合 [4][7] - 引入显式的3D空间编码器与强大的视觉语言模型结合,使机器人不仅能理解指令,更能感知三维空间 [4] - 采用独立的视觉与深度编码器,通过语义引导几何模块和空间Transformer生成优化后的几何表征并实现精确的2D至3D映射 [10][11][13] 核心组件:语义引导几何模块 - SGM模块通过冻结的大规模预训练深度估计专家模型从RGB输入中提取鲁棒但粗粒度的几何先验,同时利用深度编码器提取细粒度但含噪的几何特征 [11] - 采用多尺度门控机制自适应地融合鲁棒的几何先验与含噪的深度特征,生成在保留细微细节的同时降低噪声的优化几何表征 [11] - 该设计解决了现实世界深度测量噪声问题,利用RGB图像的高信噪比语义线索来引导几何特征生成 [11] 核心组件:空间Transformer - SPT模块将视觉得到的空间特征与机器人本体感知信息融合,利用相机参数和深度信息将图像像素坐标转换为机器人基座坐标系下的三维坐标 [13] - 采用旋转位置编码技术将三维几何信息嵌入特征中,赋予其低层空间感知能力 [13] - 依次执行视图级和场景级注意力机制,优化单视图内部表征并聚合所有视图与语言指令特征,实现跨模态的全局上下文融合 [13] 性能表现:仿真基准测试 - 在RLBench仿真测试中取得87.4%的平均成功率,超越此前SOTA模型RVT-2达6.0个百分点 [16] - 在18个任务及其249种变体上表现优异,在需要高空间精度的任务中优势显著,如Insert Peg任务优于RVT-2达53.3个百分点,Sort Shape任务优于38.3个百分点 [16] - 整体性能达到SOTA水平,在多个具体任务上表现突出 [4][16] 性能表现:噪声鲁棒性 - 在不同强度噪声条件下性能显著提升,轻、中、重度噪声下平均成功率分别比RVT-2高出13.9%、16.9%和19.4个百分点 [19] - 在需要高精度对位的任务中优势更为突出,Insert Peg任务在三档噪声下分别高出RVT-2达88.0、78.6和61.3个百分点 [19] - 展现出对噪声干扰的强鲁棒性,特别是在复杂几何任务中表现稳定 [19] 性能表现:真实世界验证 - 真机实验中使用WidowX单臂机器人,在8个不同任务共计15种变体上测试,平均成功率比RVT-2提升约20个百分点,达到63% [23] - 在物体、接收物体、光照和背景变化的挑战性条件下仍保持高水平表现,证明其在复杂真实场景中的强大鲁棒性与泛化能力 [23] - 在具体任务如Pick Glue to Box任务成功率从50%提升至85%,Push Button任务从67%提升至90% [23] 行业意义与前瞻 - 该工作解决了机器人操作模型依赖2D图像导致的深度信息丢失和3D几何结构缺失问题 [2] - 论文已被收录为AAAI 2026 Oral,并将于近期开源,为行业提供新的技术解决方案 [4] - 团队还提出MemoryVLA,引入感知-认知记忆机制,解决机器人操作中的时序理解和长程决策问题 [28]