Workflow
端到端机器人操作
icon
搜索文档
ImaginationPolicy:迈向通用、精确、可靠的机器人操作端到端策略
具身智能之心· 2025-09-27 01:33
文章核心观点 - 研究提出了一种名为“移动定向关键点链”的新型机器人端到端操作方案,该方案以“可用性”为核心,通过任务特定的定向关键点来具象化操作,旨在解决现有端到端方法在可靠性、精度和泛化能力上的不足,实现对不同形状尺寸物体的自然泛化,并达到亚厘米级精度,同时支持多阶段任务、多模态行为与可变形物体操作 [2] 核心背景与问题提出 - 传统模块化机器人操作流水线存在模块间信息损失和特征错位等局限,而现有端到端神经网络方法在实际部署中的性能和可靠性甚至逊色于传统方法,尤其是在面对未见物体或不同机器人平台时泛化能力短板突出 [2] - 研究旨在填补“泛化潜力”与“实际性能需求”之间的差距 [2] 相关工作梳理 - 机器人抓取检测研究广泛,但多局限于单一任务,而提出的方法将其纳入统一动作表示框架,使其成为整体公式的一个特例 [3] - 基于可用性的机器人操作传统研究多适用于特定任务且仅能处理刚性物体,提出的方法则具有通用性,可覆盖多种操作技能并能直接处理可变形物体 [4] - 机器人操作的端到端学习现有方法动作表示多局限于末端执行器位姿或关节角度,提出的方法采用以可用性为基础的定向关键点表示,在泛化性与精度间取得更好平衡 [5] 核心方法:基于可用性的动作表示 - 定义了三种机器人控制权限:对自身末端执行器拥有完全6自由度控制权限;对抓取的刚性物体拥有受物理约束限制的完全6自由度控制权限;对抓取的可变形物体可对抓取的局部区域进行6自由度控制 [6][8][11] - 基础动作表示公式以场景观测和任务描述为输入,输出包含被操作物体、任务相关可用性帧和目标动作帧三部分信息 [9][12] - 该方法具有通用性,当将被操作物体固定为夹爪、可用性帧固定为夹爪TCP帧时,公式即退化为传统的末端执行器位姿动作表示 [14] 方法扩展:覆盖复杂场景 - 多阶段任务扩展:可从全局任务描述自动生成子任务,并结合场景观测动态调整,无需手动设置每个子任务的描述 [15] - 多动作候选扩展:通过分数匹配网络建模动作分布,实现对不同被操作物体或同一物体的不同可用性-动作帧对的多个候选动作的生成 [16][18] - 轨迹动作扩展:将单一动作帧扩展为SE(3)轨迹序列,以支持需连续运动的任务,如切水果和绘画,轨迹类型分为稀疏轨迹和密集轨迹 [19][21] 神经网络架构与实现 - 整体架构分为任务规划网络和动作预测网络两部分,形成端到端流水线 [22] - 任务规划网络微调Groma视觉-语言模型,输入RGBD图像和全局任务描述,输出子任务列表及需关注的环境区域 [24] - 动作预测网络采用Transformer架构,输入场景点云和子任务特征,输出所有子任务的可用性帧与动作帧,核心设计融合了点云特征、任务特征,并采用扩散模型思想进行动作分布建模 [25][27] - 机器人轨迹生成采用两种方式:仿真实验中使用学习型策略,真实世界实验中使用传统任务-运动规划算法 [27] 实验验证与结果分析 - 实验硬件采用6自由度机械臂、平行夹爪和RGBD传感器,任务覆盖四类典型操作场景,需适配不同形状尺寸物体与动态环境 [27] - 动作分布分析结果显示:在稀疏动作分布任务中,挂杯子的平移误差为6.4毫米、旋转误差为5.91度,插电缆的平移误差为8.1毫米、旋转误差为6.53度;在密集动作分布任务中,抓取位姿检测的有效动作比例为86.7%,稳定放置的有效动作比例为83.5% [29][31] - 整体任务成功率:挂杯子任务为91/100,电缆插入任务为87/100,稳定放置任务为95/100 [32][36] - 主要失败模式源于任务规划网络检测失败和机械臂可达性限制 [33][35]