GraspGen
搜索文档
宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架
具身智能之心· 2025-11-05 00:02
文章核心观点 - MAESTRO是一种以视觉语言模型为核心的模块化机器人框架,通过动态组合专用模块,在无需大规模机器人训练数据的情况下,实现了超越现有视觉语言动作模型的零样本操作性能[2] - 该框架选择了一条差异化研发路径,利用VLM的通用能力并整合成熟工具模块,以克服机器人数据稀缺和采集成本高的行业瓶颈[4][6] - 实验证明该框架在桌面操作和移动操作任务中均表现出核心性能优势,尤其在语义推理和长时记忆任务中表现突出,展示了"VLM+模块化工具"路径的有效性[15][17][22] 核心架构与关键设计 - 整体框架以VLM编码代理为核心,接收指令后动态编写代码组合工具模块,并采用闭环交互机制持续监控环境反馈,实时调整代码和动作[5] - 模块设计遵循六大原则,覆盖多维度机器人操作需求,具体包括感知、几何与线性代数、控制、预训练视觉运动策略、图像编辑以及移动操作扩展模块[8][10] - 框架具备基于历史运行的进化机制,通过数据库记录过往任务,为新任务提供上下文示例,实现少量真实世界试验后的性能提升[12] 实验结果与性能分析 - 在7项桌面操作任务中,MAESTRO在6项任务上大幅超越现有VLA模型和代码即策略基线,例如在"旋转立方体使紫色面朝上"任务中得分为60.0 ± 38.1分,而基线模型π₀.₅仅为10.0±0.0分[17][18] - 在4项移动操作任务中均实现高完成度,其中"搜索物品并返回"任务达96.0±8.9分,"按按钮开门"任务达93.3±14.9分[17][18] - 进化机制效果显著,在开门任务中,经过三次进化迭代后,完成度从初始的35%提升至85.0±7.4分[17] 关键模块影响分析 - 去除高级感知模块后,折叠毛巾任务完成度从71.3±21.4分降至40.0±7.1分,旋转立方体任务从60.0±38.1分降至25.0±0.0分,表明精准感知是复杂操作的基础[19][20] - 去除几何模块后,旋转立方体任务完成度降至42.5±31.8分,验证了空间推理工具对需姿态调整的任务至关重要[19][20]
NVIDIA最新!GraspGen:基于扩散模型的六自由度抓取生成框架
具身智能之心· 2025-07-21 08:42
核心观点 - GraspGen是一个针对机器人6自由度抓取泛化能力不足问题提出的创新框架,通过将抓取生成建模为迭代扩散过程,结合DiffusionTransformer架构和高效判别器,显著提升了抓取生成能力和适应性 [2] - 该框架采用"生成器上训练"策略大幅提升判别器性能,并通过新发布的大规模模拟数据集(含5300万抓取)实现对不同物体和夹具的适配 [2][9] - 在模拟和真实机器人实验中,GraspGen全面超越基线方法,在单物体场景AUC超过基线48%,在clutter场景任务成功率超过Contact-GraspNet 16.9% [10][13] - 真实机器人实验中整体成功率81.3%,远超M2T2(28%)和AnyGrasp(17.6%),尤其在复杂场景优势明显 [19] 核心方法 - 扩散生成器:将6自由度抓取生成建模为SE(3)空间中的扩散过程,采用DDPM模型计算更快、实现更简单 [4] - 平移归一化:通过数据集统计计算归一化系数,避免人工设置或网格搜索的低效 [4] - 对象编码:采用PointTransformerV3作为骨干网络,相比PointNet++减少5.3mm平移误差,提升4%召回率 [4] - 扩散网络:通过10步去噪生成抓取(远少于图像扩散的数百步),训练损失为预测噪声与真实噪声的L2损失 [5] 判别器设计 - 高效评估:复用生成器的对象编码器,内存使用减少21倍 [7] - 生成器上训练:用生成器生成约7K物体×2K抓取/物体的数据集训练判别器,使其AUC达0.947,显著高于仅用离线数据的0.886 [7][16] 模拟数据集 - 覆盖范围:包含三种夹具(每种约1700万抓取)和36366个网格模型 [11] - 生成方式:每个物体采样2K抓取姿态,通过摇晃测试判断成功 [11] 实验结果 - 单物体场景:在ACRONYM数据集上精度-覆盖率曲线AUC超过基线48% [10] - clutter场景:在100个场景×60任务中,任务成功率和抓取成功率均为最优 [13] - 遮挡鲁棒性:混合训练使模型在完整点云和单视图点云输入下均保持高性能 [14] - 多夹具泛化:在Robotiq-2f-140夹具上AUC达0.68873,远超M2T2的0.24265 [17] 局限 - 依赖深度传感和实例分割质量,对立方体物体表现较差 [21] - 训练需约3K GPU小时(NVIDIA V100),计算成本较高 [21]