Workflow
零样本通用机器人框架
icon
搜索文档
宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架
具身智能之心· 2025-11-05 00:02
文章核心观点 - MAESTRO是一种以视觉语言模型为核心的模块化机器人框架,通过动态组合专用模块,在无需大规模机器人训练数据的情况下,实现了超越现有视觉语言动作模型的零样本操作性能[2] - 该框架选择了一条差异化研发路径,利用VLM的通用能力并整合成熟工具模块,以克服机器人数据稀缺和采集成本高的行业瓶颈[4][6] - 实验证明该框架在桌面操作和移动操作任务中均表现出核心性能优势,尤其在语义推理和长时记忆任务中表现突出,展示了"VLM+模块化工具"路径的有效性[15][17][22] 核心架构与关键设计 - 整体框架以VLM编码代理为核心,接收指令后动态编写代码组合工具模块,并采用闭环交互机制持续监控环境反馈,实时调整代码和动作[5] - 模块设计遵循六大原则,覆盖多维度机器人操作需求,具体包括感知、几何与线性代数、控制、预训练视觉运动策略、图像编辑以及移动操作扩展模块[8][10] - 框架具备基于历史运行的进化机制,通过数据库记录过往任务,为新任务提供上下文示例,实现少量真实世界试验后的性能提升[12] 实验结果与性能分析 - 在7项桌面操作任务中,MAESTRO在6项任务上大幅超越现有VLA模型和代码即策略基线,例如在"旋转立方体使紫色面朝上"任务中得分为60.0 ± 38.1分,而基线模型π₀.₅仅为10.0±0.0分[17][18] - 在4项移动操作任务中均实现高完成度,其中"搜索物品并返回"任务达96.0±8.9分,"按按钮开门"任务达93.3±14.9分[17][18] - 进化机制效果显著,在开门任务中,经过三次进化迭代后,完成度从初始的35%提升至85.0±7.4分[17] 关键模块影响分析 - 去除高级感知模块后,折叠毛巾任务完成度从71.3±21.4分降至40.0±7.1分,旋转立方体任务从60.0±38.1分降至25.0±0.0分,表明精准感知是复杂操作的基础[19][20] - 去除几何模块后,旋转立方体任务完成度降至42.5±31.8分,验证了空间推理工具对需姿态调整的任务至关重要[19][20]