近300篇工作!伦敦国王学院x港理工全面解构VLA模型,一份清晰系统的导航图
具身智能之心·2025-12-17 00:05

文章核心观点 - 该综述对视觉-语言-动作模型进行了全面剖析,指出VLA模型正推动机器人技术变革,其发展遵循“基础模块→历史里程碑→核心挑战”的逻辑,五大核心挑战是当前研究的关键突破口 [1] 基础模块与架构趋势 - VLA系统由感知、大脑、动作三大核心模块组成,近年呈现明显技术迭代趋势 [3] - 感知模块正从传统视觉骨干网络转向语言对齐Transformer,并新增几何表征以提升操作精度 [10] - 大脑模块向预训练视觉语言模型收敛,利用互联网级知识实现零样本泛化 [10] - 动作模块从离散令牌化转向连续生成建模,追求平滑的多模态分布建模 [10] - 机器人感知编码器以CNN和ViT为主,语言编码器从Transformer演进至LLM和VLM [10] - 机器人大脑主流架构包括Transformer、扩散Transformer、混合架构和VLM [10] - 机器人动作表征分离散、连续、混合三类,解码方式包括自回归、非自回归和混合解码 [10] 发展里程碑 - 2017-2019年:奠定基础,VLN、EmbodiedQA等基准推动语言与视觉环境对齐 [13] - 2020-2021年:转向长时推理,ALFRED、CLIPort实现语言引导的机器人操作零样本泛化 [13] - 2022年:大模型时代开启,RT-1、RT-2构建统一VLA框架,实现端到端视觉-语言-动作学习 [13] - 2023年:技术突破集中,PaLM-E统一多模态输入空间,Diffusion Policy革新动作建模范式,Open X-Embodiment提供大规模跨机器人数据 [13] - 2024年:开源与泛化推进,OpenVLA降低研究门槛,Octo实现跨平台多任务控制,3D-VLA转向全3D世界建模 [13] - 2025年:多元进化,Humanoid-VLA拓展至人形机器人,Cosmos-Reason1标准化物理推理 [13] 核心挑战与解决方案 - 多模态对齐与物理世界建模:核心问题是弥合语义、感知与物理交互的鸿沟,实现从2D图像到时空表征的升级,解决方案包括通过对比学习实现模态对齐,引入点云、体素等提升空间推理能力 [18] - 复杂指令理解与高效执行:核心问题是解析复杂/模糊指令,分解长时任务,实现错误自修复与低延迟执行,解决方案包括采用多模态序列建模处理混合指令,通过分层规划拆解任务 [24] - 从泛化到持续适应:核心问题是实现开放世界泛化,避免持续学习中的遗忘,缩小仿真到现实的差距,解决方案包括利用多任务预训练、互联网视频迁移知识,通过参数隔离缓解遗忘 [25] - 安全、可解释性与可靠交互:核心问题是保障物理安全,提升决策透明度,建立人机信任,解决方案包括注入安全约束、通过Constitutional AI对齐人类价值观,输出中间推理过程增强可解释性 [26] - 数据构建与基准测试标准:核心问题是获取大规模异质数据,建立统一的评估体系,解决方案包括通过表征统一、数据增强整合多源数据,开发覆盖复杂任务与泛化能力的基准测试 [27] 数据集与评估基准 - 模拟数据集:例如ALFRED包含8,055个专家演示和约120个室内场景,LIBERO包含约6,500个演示和130项技能,VLA-3D包含970万对参考数据和11.5千个重建的3D房间 [6] - 真实世界机器人操作数据集:例如BridgeData V2包含60,096条轨迹,DROID包含约76千条轨迹,Open X-Embodiment包含超过100万条轨迹和527项技能,AgiBot World包含超过100万条轨迹和217项任务 [6] - 以人为中心及第一人称数据集:例如Ego4D包含约3,700小时视频,HOI4D包含约4,000个序列,HD-EPIC包含约4,881个物体行程 [6] - 评估基准:包括用于语言条件操作的RLBench、ManiSkill系列,用于长时任务完成的ALFRED、CALVIN、TEACh,用于高级认知能力的LIBERO、RoboCAS,以及用于评估基础模型的EmbodiedBench、EWM Bench、RoboTwin [30] 应用场景与未来方向 - 主要应用场景包括家庭机器人和工业与野外机器人,前者需处理非结构化环境和长时任务,后者需实现高精度操作与安全合规 [29] - 未来趋势包括发展原生多模态架构、形态无关表征,构建自监督探索与在线强化学习的闭环进化体系,推动评估从二元成功率转向综合诊断测试 [30]