研究背景与核心思路 - 传统机器人模仿学习受限于硬件和操作成本,难以突破数据规模和任务多样性 [3] - 人类操作行为构成海量潜在训练数据,全球数十亿人在机器人期望工作的场景中持续活动 [3] - 核心突破在于人类与机器人的动作空间差异可通过几何变换近似,无需直接基于机器人数据训练视觉-语言-动作模型 [3] - 先在人类第一视角视频上训练模型,再通过少量机器人演示微调,实现技能迁移 [3] 模型架构与动作空间设计 - 以NVILA-2B为基础框架,输入包括当前及历史第一视角视觉观测、语言指令、动作查询token和人类本体感觉 [5] - 动作头预测未来1秒内的动作序列,采样频率30 Hz [6] - 动作空间采用人类手腕位姿和MANO手模型的前15个PCA主成分,兼顾紧凑性与表达力 [8] - 通过3D变换对齐坐标系,结合逆运动学转换为机器人末端执行器位置 [11] 数据组成与训练 - 整合四个来源的第一视角视频,形成约50万图像-动作对的大规模人类操作数据集 [12] - 数据集涵盖TACO(23%)、HOI4D(25%)、HoloAssist(39%)、HOT3D(13%),涉及33种刚性物体 [12] - 训练损失函数包括L2损失(针对手腕平移和手部关节角回归)和rot6D旋转损失 [10] 评估基准与实验结果 - 基于NVIDIA IsaacSim构建仿真基准,包含12个任务,通过世界坐标系相机位姿解决标注不一致问题 [14] - 人类数据预训练的EgoVLA在短视距和长视距任务中成功率提升约20% [16] - 在seen视觉背景下,EgoVLA的成功率和进度率显著优于无预训练的基线 [18] - 在unseen视觉背景下,EgoVLA短视距任务成功率仅小幅下降,而无预训练模型下降23% [20] 数据规模与多样性影响 - 人类数据多样性越高,模型泛化越好,整合多数据集的模型在短视距任务上的表现显著优于单一数据集训练的模型 [23] - 仅用50%机器人演示数据的EgoVLA性能明显下降,尤其长视距任务 [23] - 依赖带手腕和手部姿势标注的人类数据,当前数据获取仍有局限 [23] - 需少量机器人数据微调才能部署,零样本迁移能力不足 [23]
加利福尼亚大学!EgoVLA:从第一视角人类视频中学习VLA模型
具身智能之心·2025-07-20 01:06