Workflow
具身基础模型(Embodied Foundation Models)
icon
搜索文档
当机器人能自己教自己:DeepMind发布自我改进的具身基座模型
锦秋集· 2025-09-19 08:41
近日,Google DeepMind Generalist 团队发布新作《Self-Improving Embodied Foundation Models》,为该领域贡献了一个具有里程碑意义的框架: 一个真正可实现机 器人自主练习、自我奖励、并不断超越初始训练数据限制的双阶段后训练方法 。 通过系统性的算法设计与大规规模真实机器人验证,该研究提出将传统的行为克隆(BC)与创新的"步骤到-go预测"目标相结合,在监督微调(SFT)之后引入一个 名为"自我改进"的在线强化学习阶段。 该方法不依赖人工奖励设计,而是从预训练基础模型中自动导出奖励信号与成功判断,使多台机器人可在人类极简监督下并行练习。 在核心机制维度,文章系统展示了如何通过步骤到-go预测构建密集奖励函数、实现鲁棒的成功终止判断、并显著提升策略样本效率。仅增加10%的自主练习时间, 即可在Block2Block任务上带来超过30%的成功率提升,效果显著优于单纯扩大8倍模仿数据。 过去的机器人会模仿,却始终学不会举一反三。今天,真正的挑战是:如何让机器人像人一样,在反复尝试中自己变聪明。 进入2025年,具身智能的核心命题逐渐清晰: 如何让机器人通过 ...