专家—通才训练范式

搜索文档
更为稳健,具备泛化!BumbleBee: 通用人形机器人全身控制范式
具身智能之心· 2025-09-29 02:08
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 专家学习 —— 首先在全数据上训练一个基础控制策略,作为专家模型的初始点。随后,针对聚类结果在各动作簇上分别微调,得到更具针对性的专家模型。接 着,将专家模型部署到真实机器人上执行以采集轨迹,并基于这些轨迹为每个类别单独训练动作增量模型,再冻结增量模型对专家进行微调,实现对仿真与现实间 偏差的补偿。通过迭代更新,专家模型在"更优策略—更高质量数据—更精准增量—再优化专家"的循环中逐步提升性能。 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 BumbleBee 提出了一条完整的人形机器人全身控制训练流程。首先,利用 AMASS 数据集训练基础的全身控制模型;在此基础上,通过聚类区分不同类型的动作, 并分别训练相应的专家控制模型;随后,将这些专家模型部署到真实机器人上,采集执行轨迹;基于采集的轨迹序列,为每个专家模型训练对应的动作增量模型 (delta model),以缓解仿真与现实之间的差距( ...