文章核心观点 - 文章介绍了一种名为SpatialActor的新型机器人操作模型,其核心创新在于将语义信息与空间几何信息进行解耦,通过双流架构分别处理,以克服现有模型依赖2D图像导致的深度信息丢失和对噪声敏感的问题,从而在仿真和真实世界任务中实现了更高的成功率和鲁棒性 [1][3] 方法与架构 - 核心设计理念:机器人操作需要语义理解与几何把控的协同,SpatialActor采用“双流解耦-融合”架构,而非训练全能端到端网络 [6] - 语义引导几何模块:该模块通过多尺度门控机制,自适应地融合来自预训练深度专家的鲁棒几何先验与来自原始深度的细粒度但含噪的几何特征,生成优化后的高层几何表征 [10] - 空间Transformer模块:该模块旨在建立精确的2D至3D映射并融合多模态特征,通过将空间特征与机器人本体感知信息融合,并利用相机参数转换为3D坐标,再通过视图级和场景级注意力机制优化特征,最终解码生成精确的6-DoF动作 [12] 仿真基准测试结果 - 整体性能:在包含18个任务、249种变体的RLBench仿真基准测试中,SpatialActor的平均成功率达到了87.4%,超越了此前的最先进模型RVT-2(81.4%)6.0个百分点 [13] - 高精度任务表现:在需要高空间精度的任务上优势显著,例如在“Insert Peg”任务中成功率高达93.3%,优于RVT-2的40.0%,领先53.3个百分点;在“Sort Shape”任务中成功率为73.3%,优于RVT-2的35.0%,领先38.3个百分点 [13] 噪声鲁棒性测试 - 抗噪性能:在模拟不同强度高斯噪声的实验中,SpatialActor始终优于RVT-2。在轻度、中度和重度噪声下,平均成功率分别比RVT-2高出13.9%、16.9%和19.4个百分点 [14] - 关键任务抗噪性:在“Insert Peg”任务中,抗噪优势尤为突出,在三档噪声下的成功率分别比RVT-2高出88.0、78.6和61.3个百分点 [14] 真机实验结果 - 整体有效性:在8个不同任务、15种变体的真实机器人实验中,SpatialActor的整体平均成功率为63%,显著优于RVT-2的43%,平均提升约20个百分点 [18][19] - 任务具体表现:在多个任务上表现更优,例如“Pick Glue to Box”任务成功率为85%(RVT-2为50%),“Push Button”任务成功率为90%(RVT-2为67%) [18] - 泛化与鲁棒性:在被操作物体、接收物体、光照和背景发生变化等极具挑战性的条件下,SpatialActor仍能保持高水平表现,证明了其在复杂真实场景中的强大鲁棒性与泛化能力 [19] 结论与意义 - 技术总结:SpatialActor通过解耦语义与几何信息,并分别构建鲁棒的高层几何表征和捕捉低层空间线索,有效解决了机器人操作中精确空间理解、传感器噪声和有效交互的挑战 [21] - 实验验证:在超过50个仿真和真实世界任务上的广泛实验表明,该框架在多样化条件下均能实现更高的成功率和强大的鲁棒性 [21] - 未来方向:文章指出机器人操作还需解决时序理解与长程决策问题,并提及团队另一项工作MemoryVLA,该工作引入记忆机制以实现时序感知的决策 [24]
SpatialActor:解耦语义与几何,为具身智能注入强鲁棒空间基因
具身智能之心·2025-12-05 16:02