Workflow
Energy-Based Transformer (EBT)
icon
搜索文档
如果Policy模型也能动态思考推理,是否能让机器人在真实世界中表现得更好?
具身智能之心· 2025-11-13 02:05
文章核心观点 - 提出一种名为EBT-Policy的新型机器人策略架构,该架构基于能量模型,能够动态思考与推理并理解不确定性[2] - EBT-Policy在模拟与真实机器人任务中均表现出色,显著提升了训练和推理效率,并展现出独特的零样本重试能力[4] - 该方法通过能量最小化进行推理,不依赖去噪生成过程,使模型更稳定且更具推理能力[9] 技术原理与架构 - EBT模型通过学习能量值来衡量输入变量间的匹配程度,能量高代表不确定,能量低代表更有信心[5] - 核心思想是学习关于观测数据、机器人动作和上下文的能量地形,在推理阶段通过能量最小化搜索低能量的未来动作轨迹[8] - 模型通过多次前向传播最小化能量直至收敛,能根据问题难度自动调整计算资源[8] 性能优势 - 训练阶段收敛速度提升约66%,推理阶段仅需2次迭代即可完成动作生成,计算量减少约50倍[18] - 具备训练与推理一致性、不确定性建模和失败恢复能力,而Diffusion Policy在这些方面存在不足[13] - 展现出更少灾难性失败、更少训练过拟合、更平滑推理过程、更强可解释性以及更优分布外泛化能力[24] 实际应用表现 - 在真实世界任务中表现优异,Fold Towel任务成功率从10%提升至86%,Collect Pan从65%提升至75%[17] - 在Benchmark任务中如Lift和Can达到100%成功率,Square任务达到98%成功率[17] - 可直接利用行为克隆数据进行部署,几乎无需额外微调即可稳定执行任务[16] 技术对比 - 与Diffusion Policy相比,推理方式从去噪生成变为能量最小化,推理步数从约100步减少到仅需2步[11] - 性能提升源于统一的训练与推理机制以及平衡动力学,使模型能自我纠正并重新稳定[23]