Vision Language Action (VLA) - 财报，业绩电话会，研报，新闻 - Reportify

Vision Language Action (VLA)

搜索文档

OpenHelix 团队新作！Long-VLA：深入探究端到端VLA模型的长时瓶颈和有效解决方案

具身智能之心· 2025-08-29 05:02

文章核心观点 - Long-VLA是首个针对机器人长时任务设计的端到端视觉语言动作模型通过引入阶段感知输入掩码机制动态调整视觉模态输入有效解决技能链问题在仿真和真实环境中均显著超越现有方法[2][3][4] 技术背景与创新点 - 现有VLA模型在长时任务中效果大幅下降主要由于子任务衔接不稳定导致误差累积[2] - 传统方法分为三类：端到端统一模型（短时任务有效但长时表现不佳）、任务分解方法（缺乏协调导致状态漂移）、输入适配模块化方法（与VLA统一范式冲突）[3] - Long-VLA核心创新在于将子任务划分为移动阶段（关注全局空间线索）和交互阶段（聚焦局部精细感知）通过二进制掩码动态调整相机视角输入[2][6][7] 模型架构 - 采用统一端到端训练架构保持VLA大规模扩展优势[4][6] - 重新标注形成L-CALVIN数据集每条轨迹带有明确阶段切分点[6] - 通过条件扩散模型生成动作序列保持输入结构一致性[7] 性能表现 **仿真环境（L-CALVIN）** - D→D场景：在10项连续任务中完成率从基准策略的0.11提升至0.20（81%提升）[10] - ABCD→D场景：第10项任务完成率达0.56 较基准策略0.45提升25%[10] - 子任务完成率普遍提升15%-42% 最高提升出现在第9项任务（100%从0.13至0.26）[10] **真实场景** - 在Sorting和Cleaning任务中面对随机位置/光照变化/视觉干扰均显著优于基线[10] - 平均任务长度：基于HULC从2.65提升至3.30（0.65提升）基于MDT从4.11提升至4.81（0.7提升）[12] 技术意义 - 首次实现端到端训练与长时适应性平衡为机器人长时任务提供新基准[13] - 不依赖在线奖励信号更契合离线大规模训练范式[4] - 避免模块化方法的数据切割问题保持统一架构优势[4][6]

Vision Language Action (VLA)

Vision Language Action (VLA)