无需再训练!港大团队提出GPC框架,实现机器人「策略组合」
具身智能之心·2025-10-21 00:03
技术框架概述 - 香港大学团队提出通用策略组合(GPC)框架,通过免训练方式在测试时组合多个预训练模型,以超越单一策略性能 [1] - GPC框架采用凸组合方式动态融合多个预训练策略的决策分数,创造性能更强的组合策略 [6] - 该框架能够灵活融合不同架构和不同模态的机器人策略,打破传统性能提升对数据和算力的依赖 [2] 技术原理与优势 - GPC通过功能层面的提升证明组合分数在单步上具有更低误差,比任何单一策略更精确 [8] - 系统层面的稳定性通过Grönwall型界限确保组合策略在整个生成轨迹上具有系统性性能提升 [9] - 框架提供叠加原理扩展,包括Logical OR和Logical AND操作符,为策略性能提供更强放大潜力 [15][16] 应用兼容性 - GPC具备跨架构兼容性,能够组合基于扩散模型或基于流匹配的策略 [19] - 框架支持跨模态融合,可整合视觉-动作模型、视觉-语言-动作模型等不同输入条件下的策略优势 [19] - 权重搜索机制能为不同任务量身定制最优权重配置,实现组合策略性能最大化 [18] 实验验证结果 - 在Robomimic和PushT任务上GPC实现最高7.55%的平均成功率提升,在RoboTwin双臂协作任务上提升7% [24] - 真实世界PiPER机器人实验中,GPC在每个任务对比单一基线成功率拥有5-10%的提升 [26] - 实验发现当被组合的两个策略准确率都高于30%时,GPC能实现比单一基线策略更高的准确率 [25]