美的团队分享!在七个工作中找到推理到执行,构建通用灵巧VLA模型的钥匙
具身智能之心·2025-09-05 00:45
核心观点 - 构建持续进化且通用的视觉-语言-动作模型 通过多模态基座模型建立感知与动作联合框架 扩展至复杂场景与灵巧操作任务 应对柔性物体与精细操作挑战 提升通用灵巧能力 [6] - 深度融合视觉语言模型的开放世界理解与逻辑能力 融入大模型先验与语义推理 增强在未知任务中的高层规划与泛化能力 [6] 技术模型发展 - DexVLA模型通过插入扩散专家实现通用机器人控制 [5] - ChatVLA-2模型具备开放世界具身推理能力 基于预训练知识 [5] - ChatVLA模型统一多模态理解与机器人控制 [5] - Diffusion-VLA模型通过自生成推理实现可泛化可解释的机器人基础架构 [5] - CoA-VLA模型通过视觉-文本赋能链提升视觉-语言-动作模型性能 [5] - PointVLA模型将三维世界信息注入视觉-语言-动作框架 [5] - TinyVLA模型致力于快速数据高效的机器人操作视觉-语言-动作架构 [5] 能力拓展方向 - 构建VLA基座模型作为技术基础架构 [7] - 拓展VLA模型能力边界至更复杂应用场景 [8] - 提升VLA模型泛化能力以适应未知任务环境 [8] - Spec-VLA框架专为推理加速设计 在保持精度同时提升速度 [10] 应用场景深化 - 灵巧手设计成为打通手-眼-脑感知闭环的关键技术 [10] - 跨实体世界模型助力小样本机器人学习 [10] - 应对柔性物体与精细操作等挑战性任务 [6] - 从开放世界语义推理延伸至真实环境动作执行 [6]