Vision Language Action (VLA)

搜索文档
OpenHelix 团队新作!Long-VLA:深入探究端到端VLA模型的长时瓶颈和有效解决方案
具身智能之心· 2025-08-29 05:02
文章核心观点 - Long-VLA是首个针对机器人长时任务设计的端到端视觉语言动作模型 通过引入阶段感知输入掩码机制动态调整视觉模态输入 有效解决技能链问题 在仿真和真实环境中均显著超越现有方法[2][3][4] 技术背景与创新点 - 现有VLA模型在长时任务中效果大幅下降 主要由于子任务衔接不稳定导致误差累积[2] - 传统方法分为三类:端到端统一模型(短时任务有效但长时表现不佳)、任务分解方法(缺乏协调导致状态漂移)、输入适配模块化方法(与VLA统一范式冲突)[3] - Long-VLA核心创新在于将子任务划分为移动阶段(关注全局空间线索)和交互阶段(聚焦局部精细感知) 通过二进制掩码动态调整相机视角输入[2][6][7] 模型架构 - 采用统一端到端训练架构 保持VLA大规模扩展优势[4][6] - 重新标注形成L-CALVIN数据集 每条轨迹带有明确阶段切分点[6] - 通过条件扩散模型生成动作序列 保持输入结构一致性[7] 性能表现 **仿真环境(L-CALVIN)** - D→D场景:在10项连续任务中完成率从基准策略的0.11提升至0.20(81%提升)[10] - ABCD→D场景:第10项任务完成率达0.56 较基准策略0.45提升25%[10] - 子任务完成率普遍提升15%-42% 最高提升出现在第9项任务(100%从0.13至0.26)[10] **真实场景** - 在Sorting和Cleaning任务中 面对随机位置/光照变化/视觉干扰均显著优于基线[10] - 平均任务长度:基于HULC从2.65提升至3.30(0.65提升) 基于MDT从4.11提升至4.81(0.7提升)[12] 技术意义 - 首次实现端到端训练与长时适应性平衡 为机器人长时任务提供新基准[13] - 不依赖在线奖励信号 更契合离线大规模训练范式[4] - 避免模块化方法的数据切割问题 保持统一架构优势[4][6]