GEM系统

搜索文档
港大&清华最新!仅通过少量演示,实现动态物体操作的强泛化能力!
具身智能之心· 2025-08-21 00:03
动态物体操作的技术挑战与现有方法局限 - 动态物体操作对运动规划的时效性和操作精度要求更高,需实时应对物体移动速度、轨迹变化等因素 [8] - 经典运动规划方法依赖复杂系统建模和参数调优,需针对不同场景定制设计,扩展性差 [11] - 现有模仿学习方法泛化能力依赖大量演示数据,但动态场景公开数据集极少且数据收集成本极高 [11] 基于熵的理论框架创新 - 通过信息熵分析将专家演示的联合熵分解为观测熵(衡量观测信息复杂度)和动作条件熵(衡量动作预测模糊性) [14][16] - 降低观测熵需剔除与动作预测无关的冗余信息(如物体外观、环境背景),保留核心几何结构 [16] - 降低动作条件熵需引入历史记忆解决信息不足问题,并用概率模型处理多模态动作分布 [16] GEM系统核心技术实现 - 采用目标中心几何感知模块:使用无颜色3D点云+实例ID作为输入,避免图像外观信息干扰,并通过实例分割去除环境背景点云 [24] - 开发混合动作控制模块:通过视觉伺服控制跟踪移动物体使其呈现"静态",再通过递归概率网络生成操作动作 [24] - 记忆编码器通过Transformer解码器融合当前点云特征与历史记忆特征,采用高斯混合模型表示多模态动作分布 [27][29] 实验性能表现 - 在模拟场景中四项技能(抓取、放置、旋转、插入)平均成功率达83%,显著高于次优方法PI0*的57% [30] - 在真实场景中平均成功率达85%,其中抓取成功率92%、放置成功率96%、旋转成功率79%、插入成功率74% [31] - 在传送带速度0.25m/s时仍保持较高成功率(抓取81%、放置92%、旋转73%、插入48%),但在0.5m/s时失效 [38] 系统泛化能力验证 - 3D点云输入比图像输入在泛化任务中成功率高20%-30% [39] - 支持非直线运动(S形轨迹、随机曲线)且成功率保持在75%以上 [39] - 对未见物体(如食堂多样餐具)成功率仍达74%,且在四种机械臂上通用(成功率差异<5%) [39] - 仅用模拟数据训练在真实场景仍有76%抓取成功率,微调后提升至92% [39] 实际应用成效 - 在食堂餐具收集中7天内完成10,000+次操作,成功率97.2%,无需现场演示仅用100次模拟微调 [44] - 首次实现模仿学习在动态操作中的大规模实用化,突破动态场景数据收集成本高的瓶颈 [44]