训练阶段模拟推理延迟的补绘方法
搜索文档
消除推理阶段的额外开销!pi团队提出训练新思路
具身智能之心· 2025-12-10 00:03
文章核心观点 - 针对实时动作分块技术中推理时补绘方法带来的计算开销和延迟问题,提出了一种名为“训练时动作条件约束”的替代方案[1] - 该方法通过在训练阶段模拟推理延迟,让模型直接学习基于动作前缀生成后续动作,从而在推理阶段完全消除了额外计算开销[1][4] - 该方法无需修改模型架构或机器人运行时系统,仅需新增少量代码即可部署,是一种实用的即插即用替代方案[1][4] - 在仿真和真实场景实验中,该方法在高推理延迟下性能优于或等同于原有的推理时实时分块方法,且计算成本更低[1][4] 出发点与背景介绍 - 具身智能体必须具备实时运行和快速响应能力,无法在环境变化中“停下来思考”[2] - 随着参数规模达数十亿的视觉-语言-动作模型被用于高频机器人控制,模型推理延迟达到数十至数百毫秒,生成平滑且响应性高的动作轨迹成为挑战[2] 实时动作分块技术及其局限 - 实时动作分块技术通过异步预测动作块和推理时补绘来保证动作连续性[3] - 但推理时补绘方法会引入额外计算开销,产生延迟,削弱了实时框架的设计初衷,且在应对高推理延迟时存在本质局限[3] 训练时动作条件约束方法 - 核心思路是在训练阶段模拟推理延迟,让策略模型直接学习动作前缀的条件约束,从而消除推理阶段的计算开销[11] - 具体学习条件分布,其中输入为来自同一真实动作块的前缀动作和后缀动作[11] - 对于多数标准策略模型架构,仅需进行3处微小修改即可实现[11] - 由于无法预知精确推理延迟,训练阶段会对延迟值进行随机采样[12] - 修改后的动作生成模块可与推理时实时分块的组件接口兼容,实现无缝替代[12] 实验对比分析 - 实验旨在对比训练时实时分块、推理时实时分块,以及同步和异步基准方法的性能[13] - 仿真实验采用动态Kinetix基准测试环境,真实场景实验基于视觉-语言-动作模型,选取纸盒组装和意式浓缩咖啡制作两项高精度任务[13] 仿真实验结果 - 在动态Kinetix基准测试中,训练预测范围H=8的动作分块流策略模型[15] - 当推理延迟达到2及以上时,训练时实时分块的性能显著优于推理时实时分块,且差距随延迟增大而扩大[16][19] - 在延迟为0和1的场景下,训练时实时分块性能略有劣势,可能是因为学习生成前几个动作的训练计算量相对不足[16] - 每个数据点基于2048次轨迹展开实验[15][19] 真实场景实验结果 - 采用视觉-语言-动作模型基础模型,测试纸盒组装和意式浓缩咖啡制作任务[21] - 训练时实时分块的端到端平均延迟为108毫秒,推理时实时分块为135毫秒[21] - 训练时实时分块在保持与推理时实时分块相当的任务成功率和执行速度的同时,完全消除了推理阶段的计算开销[21] - 两种实时分块方法相比同步推理基准,均能显著提升执行速度[21]