Workflow
Long-VLA:西湖大学与阿里达摩院联合打造,全球首个支持长周期操作的端到端VLA模型
具身智能之心·2025-08-29 04:00

技术背景与问题识别 - 视觉语言动作模型(VLA)利用大规模多模态数据成为机器人学习重要方法 但在多任务连续执行时效果显著下降 主要由于子任务衔接不稳定导致误差累积[2] - 现有技术分为三类:端到端统一模型在短时任务高效但长时任务表现不佳 任务分解方法缺乏子任务协调导致状态漂移 模块化方法与VLA统一学习范式冲突难以扩展[3] 核心创新与方法论 - 提出首个针对长时任务的端到端VLA模型Long-VLA 引入阶段感知输入掩码机制 将子任务划分为移动阶段和交互阶段[2] - 通过二进制掩码动态调整视觉模态输入:移动阶段屏蔽机械臂相机视角关注全局空间线索 交互阶段屏蔽静态全局相机视角聚焦局部精细感知[6] - 在统一架构内实现任务分解优势 保持端到端特性避免数据切割和训练碎片化 同时解决子任务衔接问题[4][6] 实验验证与性能表现 - 在优化后的L-CALVIN模拟环境中 任务长度提升至连续十个子任务 Long-VLA在D→D与ABCD→D场景均显著超越基线[8] - 真实场景测试显示 在Sorting和Cleaning两类长时任务中 随机位置、光照变化和视觉干扰条件下均显著优于基线[10] - 平均任务长度提升显著:在HULC基线上从2.65提升至3.30(增加0.65) 在MDT基线上从4.11提升至4.81(增加0.7)[13] 技术普适性与行业影响 - 该方法对HULC、MDT等其他方法具有普适性 可简单迁移到其他模型中 证明实际应用价值[12] - 首次实现端到端训练和长时适应性平衡 为机器人长时任务执行奠定基础 促进实际应用落地[14]