机器人低层控制

搜索文档
Kitchen-R :高层任务规划与低层控制联合评估的移动操作机器人基准
具身智能之心· 2025-08-25 00:04
基准设计背景 - 当前具身AI基准存在显著割裂:高层语言指令遵循类基准假设低层执行完美,低层控制类基准仅依赖简单单步指令,导致无法全面评估任务规划与物理执行集成的系统[4] - Kitchen-R基准填补了该空白,通过仿真厨房环境统一评估任务规划与低层控制,为语言引导机器人代理提供更全面、更贴近真实场景的测试平台[6] 核心功能特点 - 基于Isaac Sim构建真实厨房的数字孪生环境,支持mobile ALOHA移动操作机器人[8][9] - 包含500+条复杂语言指令,覆盖移动操作任务[8][9] - 提供三种评估模式:独立评估规划模块、独立评估控制策略、全系统集成评估[8][9] - 已用于2024年AIJ竞赛具身AI赛道数据收集与验证,累计收集约2700条移动操作轨迹[9] 技术架构 - 任务规划子问题输入自然语言指令和场景俯视图,输出可执行任务计划(如"移动到水槽区→拾取杯子→移动到餐桌区→放置杯子")[19] - 移动操作子问题输入单步任务和双相机视觉信息,输出10维轨迹点序列(含底座速度、末端执行器位姿及夹爪开合度)[19] - 导航模块采用Theta*算法进行路径规划,低层控制器通过动态速度调整实现精准移动[31][37] - 操作模块基于RMPs运动控制和10阶段有限状态机,通过余弦混合运动插值确保动作平滑过渡[33][35] 评估指标体系 - 离线独立评估指标:任务规划采用精确匹配率(EM),移动操作采用均方误差(MSE),综合指标P融合两者性能[20][21][22] - 在线联合评估指标:实时执行任务时计算EM与成功率(SR),最终合并为指标M,高M值表示规划准确且执行可靠[23][26][29] - 单任务成功标准:导航任务要求机器人底座与目标距离≤10cm,操作任务要求物体与目标距离≤5cm,且需在120秒内完成[28] 基线方法性能 - VLM规划基线基于OmniFusion模型,通过添加上下文计划示例使EM指标从0提升至0.612,约束生成进一步优化至0.632[47][48] - 移动操作基线采用Diffusion Policy,融合双相机视觉特征和10维机器人状态,通过交叉注意力机制预测未来16步动作轨迹[49][52] - 执行效率对比:oracle政策单episode耗时约1分钟,而高推理时间政策最长需50分钟[57] 系统扩展性 - 支持场景/物体添加:通过配置USD文件路径实现新场景或物体导入[42] - 支持多模态数据收集:包括RGB-D图像和点云数据,传感器可通过模型配置灵活添加[42] - 任务创建基于"移动、拾取、放置"三个基础动作,通过配置文件定义关键点位和物体列表[42]