视野混合策略(Mixture of Horizons)
搜索文档
人大等团队提出Mixture of Horizons策略,解决VLA的“长短视”问题
具身智能之心· 2025-12-05 04:00
文章核心观点 - 研究团队提出了一种名为“视野混合”(Mixture of Horizons, MoH)的创新策略,旨在解决视觉语言动作(VLA)模型中广泛采用的动作分块(Action Chunking)策略所固有的权衡问题[1][12] - 该策略通过并行混合不同长度的动作预测视野,使模型能够同时兼顾长期轨迹规划和短期精细动作控制,从而提升整体性能[12][13] - 基于此,研究进一步提出了“基于跨视野一致性的动态推理”机制,通过评估不同视野预测结果的一致性来动态决定可执行动作序列的长度,显著提高了模型的推理效率[16] - 该方法在LIBERO基准测试中取得了99%的平均准确率,刷新了该榜单的最高纪录(SOTA),并且其设计简洁,可作为即插即用模块应用于多种VLA模型架构[1][15][24] 研究背景与问题 - 动作分块策略是VLA领域广泛使用的技术,指模型根据当前观测和指令预测未来多步动作[2] - 现有研究发现,模型性能对动作分块的长度(即视野,Horizon)非常敏感,通常需要通过网格搜索来确定最优值(如5、10、30)[3][4] - 单一固定的动作块长度在长期轨迹规划与短期动作精度之间存在明显的权衡(Trade-off)问题,成为了限制VLA模型泛化能力的瓶颈[7][13] 视野混合(Mixture of Horizons)策略 - **核心思想**:通过混合不同长度的视野,使VLA模型能够同时具备长程规划能力和短程精细控制能力[12] - **实现方法**: - 将初始动作块输入重排为多组长度递增的序列,并行输入共享的Action Transformer进行处理[15] - 引入一个参数量极小的线性门控层(仅2k参数),为每一步、每一个视野生成融合权重[15] - 采用平衡损失(balance loss)防止门控层坍塌至少数偏好视野,确保所有视野均被有效利用[15] - 对不同视野的预测结果进行加权求和,得到最终动作预测[15] - **优势**:设计简洁,几乎不增加计算负担,可即插即用地应用于基于回归、分类、流匹配或扩散的各类VLA模型[15][41] 动态推理(Dynamic Inference)策略 - **原理**:利用视野混合策略中不同长度视野在每一步动作预测上的一致性,来衡量该动作的可靠程度[16] - **机制**:在测试时,通过评估跨视野共识,动态决定可执行动作序列的长度,将更多可靠动作加入执行队列,从而加速推理过程[16][36] - **效果**:在LIBERO-Long任务上验证,即使在2.5倍吞吐率下,性能仍稳定超过基线模型,且比固定长度前缀的执行方式更稳定可靠[32][33][34] 实验设置与结果 - **仿真环境**:实验在LIBERO和RoboTwin2.0基准上进行[17] - **训练配置**:实验规模轻量,在4块A100 80G GPU上,LIBERO训练30k步,RoboTwin2.0训练约3k到10k步,均可在8小时内完成训练[18][19][20] - **LIBERO结果**: - 在基于回归的Treg模型(3B参数)上应用MoH后,平均准确率从95.2%提升至96.4%[23] - 在基于流匹配的TO.5模型(3B参数)上应用MoH后,平均准确率从97.7%提升至99.0%,其中Object任务达到100%准确率,刷新SOTA[23][24] - **RoboTwin2.0结果**:视野混合策略增强了模型在分布内任务上的收敛性,并提升了在更具挑战性任务设置上的泛化性和稳定性[29] 方法特性与开销 - **普适性**:方法适用于多种VLA模型架构,具有广泛的适用性[15] - **低开销**:由于Action Transformer参数量相对较小(约300M),且采用并行计算,MoH策略带来的额外训练和推理资源负担极小[41] - **无损推理**:在推理速度上几乎无损,完全不影响VLA模型的可用性[42]