测试时训练(TTT)
搜索文档
EVOLVE-VLA:VLA模型测试时训练,突破模仿学习瓶颈
具身智能之心· 2025-12-18 00:07
研究背景与动机 - 当前主流的视觉-语言-动作模型采用监督微调训练范式,存在高标注成本和脆弱的轨迹记忆两大根本性局限[2] - 监督微调范式适配新任务需收集数百条演示数据,成本随任务数量线性增长,难以扩展到通用机器人场景[5] - 模型仅模仿演示轨迹,无法泛化到训练分布外的场景,执行出现偏差容易导致任务彻底失败,缺乏错误恢复能力[5] - 人类掌握操作技能的核心是通过实践学习,这与静态模仿学习形成对比,让模型在部署阶段通过环境交互实现持续学习成为关键方向[2] 核心挑战 - 测试时训练的核心障碍是缺乏Oracle奖励信号,即训练时的模拟器真值成功信号在部署时不可用[3] - 直接使用朴素的进度估计器会产生噪声信号,可能误导政策优化,在长视野任务中噪声累积会严重影响学习效果[3] 核心创新点与方法框架 - 提出测试时自主反馈机制,用预训练的进度估计器替代Oracle奖励,提供密集、连续的反馈信号,解决测试时无监督信号的问题[4] - 设计噪声信号驯服策略,包括累积进度估计和渐进式视野扩展两大核心机制[4] - 累积进度估计通过区间里程碑采样、增量进度计算和累积聚合,将噪声点估计平滑为稳定可靠的反馈信号[6] - 渐进式视野扩展分阶段逐步增加最大探索视野,让模型先掌握简单子任务,再衔接复杂长视野任务,提升对估计误差的鲁棒性[6] - 首次实现零样本跨任务迁移,在无需任务特定演示的情况下,让模型通过自主探索适配新任务[6] 实验设置与核心结果 - 实验基准数据集为LIBERO,包含Spatial、Object、Goal、Long四个任务套件共40个任务[15] - 基础模型为OpenVLA-OFT,进度估计器为预训练的VLAC,评估指标为任务成功率[15] - 相比监督微调基线平均成功率89.2%,EVOLVE-VLA提升6.5%至95.8%[16] - 在各任务套件中表现一致提升:Spatial提升4.1%、Object提升7.3%、Goal提升6.0%[18] - 长视野任务提升最为显著,达8.6%,成功率从85.8%提升至94.4%[18] 低数据场景与跨任务泛化 - 在仅使用1条演示数据的1-shot预训练场景下,基线成功率仅43.6%,EVOLVE-VLA提升17.7%至61.3%[19] - 长视野任务提升22.0%,Object任务提升29.9%,验证了框架对降低数据收集成本的作用[20] - 在跨任务泛化测试中,将仅在LIBERO-Long上预训练的模型直接部署到LIBERO-Object,无测试时训练时成功率为0%,经自主探索后成功率达20.8%,实现零样本跨任务迁移[21][22] 消融实验与定性分析 - 累积进度估计机制相比朴素2帧对比方法,成功率从88.3%提升至91.3%,且仅需32次奖励调用,兼顾效果与效率[21] - 在密集奖励基础上添加渐进式视野扩展,成功率从91.3%提升至94.4%,获得额外3.1%增益[23] - 通过测试时训练,模型展现出演示数据中不存在的错误恢复、状态适应和策略创新等涌现能力[27] - 存在失败案例,主要原因为进度估计器与环境成功标准存在语义错位,导致奖励黑客或误判[33] 技术贡献与行业意义 - 该工作将视觉-语言-动作模型从静态模仿推向自主进化,为通用模型发展提供了新范式[32] - 证明通过环境交互实现持续学习是突破数据依赖与泛化瓶颈的关键,为真实世界部署的自适应机器人奠定了基础[32] - 提出基于进度估计器的自主反馈方案,解决了测试时无Oracle奖励的关键问题[34] - 在LIBERO基准上验证了框架有效性,实现了长视野任务+8.6%、1-shot场景+22.0%的性能提升,以及0%到20.8%的跨任务泛化突破[34]