DROID

搜索文档
探究具身机器人有限泛化能力的本质原因!增强策略依然有效
具身智能之心· 2025-08-12 00:03
研究背景与核心问题 - 大规模机器人数据集如Open X-Embodiment(OXE)包含超过一百万段轨迹,但模型在训练数据分布外场景泛化能力有限[2] - 泛化限制主要源于捷径学习(shortcut learning),即模型依赖任务无关特征(如视角、背景)而非真正因果关系[2] - 在SIMPLER环境中,多个通用机器人策略执行"拿起可乐罐"而非指令"将勺子放在毛巾上",显示模型学习虚假相关性而非语言指令与目标关系[2] 数据集多样性和碎片化分析 - OXE子数据集的视觉和文本多样性(对数尺度)显著低于视觉/多模态数据集,最新数据集DROID多样性仍低几个数量级[4] - OXE子数据集通过t-SNE可视化显示明显分离和碎片化,重叠极少,某些子数据集有多个分离簇[8] - 子数据集内机器人技能预定义且限制在狭窄任务范围,轨迹间场景和视角变化有限[10] - 多样性度量显示子数据集内部多样性不足且差异增大时,数据集表现为孤立点而非连贯整体[12] - OXE总任务数182,158,但子数据集间重叠任务仅165,重叠子数据集对占比3.70%[14] - 不同子数据集文本特征比视觉/多模态数据集更接近,源于共享机器人技能和文本指令一致性[12] 数据集特性与捷径学习的理论联系 - 捷径学习发生在模型依赖无关因素时,当任务相关因素和无关因素在训练分布中不独立时形成虚假相关性[15] - 子数据集内独立性和均匀混合假设下,归一化互信息量化任务无关因素与标签相关性[15] - 支持集完全不相交子数据集的归一化互信息与子数据集内总多样性成反比[16] - 任务无关特征(如视觉)的子数据集间距离大于任务相关特征(如文本)时,模型优先学习高方差特征形成捷径[16] 实验验证 - LIBERO环境中提高子数据集内多样性或减少子数据集间差异可减少所有模型捷径依赖,从零成功率转变为非零成功率[17][18] - 实验变量包括视角多样性(子数据集内视角范围半径)、视角差异性(视角范围中心距离)、目标位置多样性和差异性(数量1-5和空间布局)[20] - 扩散策略中增加目标位置多样性无法缓解捷径学习,突显语言指令重要性[21] - 增加视角多样性(从2到10)反而诱导因素相关性加剧碎片化,使MiniVLA的OOD成功率降至零[23][24] - 真实世界实验使用AgileX PIPER机器人臂,添加第三个"桥梁"目标数据完全消除捷径行为,显著提高OOD成功率[26][28] - 视角增强(如ZeroNVS生成新视角)和目标增强(场景间交换目标)策略有效降低捷径学习程度,提高OOD成功率[30][32][34] - 未增强π0模型OOD设置中完全无法遵循指令,增强版本语言遵循和目标到达能力显著改进,SIMPLER环境中捷径度从1.0降至0.68,真实世界从0.8降至0.25[34][35]
从坐标混乱到时空对齐!诺亚和复旦联合提出4D-VLA,提升机器人预训练效率和稳健性
具身智能之心· 2025-07-06 11:54
核心观点 - 4D-VLA通过引入3D空间坐标和历史帧信息,显著提升了视觉-语言-动作模型在复杂场景中的性能,解决了传统单帧RGB输入导致的坐标系混乱和状态模糊问题[4][8][10] - 实验证明4D-VLA在LIBERO评测中平均成功率高达88.6%,比现有最佳方法提升10.5个百分点[33] - 在真实机器人测试中,完整版4D-VLA模型平均成功率85.63%,比基线OpenVLA提升57.93个百分点[44] 现有范式的局限 - 主流方法如OpenVLA仅使用单帧RGB图像+文本指令,导致目标分布呈现高方差/非平滑特征[7] - 单帧输入导致坐标系混乱问题,在DROID数据集中约67%样本存在此问题[8] - 状态混乱问题:视觉相似观测可能对应完全不同的动作,导致局部不连续[8] 坐标系混乱影响 - 受控实验显示,无3D信息的纯RGB模型在Level 3混乱下成功率仅剩8%,而加入3D坐标编码的模型仍保持30%[17] - 坐标系漂移导致动作标签冲突,严重拖慢模型学习速度[18] 4D-VLA方法创新 - 通过深度图+相机外参将像素反投影到世界坐标,显式嵌入3D位置编码[10][21] - 采用滑动窗口和Memory Bank Sampling动态选取历史帧[25] - 引入可学习相对时间token处理非均匀采样间隔[27] 实验设置 - 预训练使用DROID数据集,包含76,000条轨迹,350小时交互,564个场景[29] - 下游评测使用LIBERO仿真套件,包含130个子任务[29] - 训练使用8张NVIDIA A6000 GPU,耗时约96小时[31] 性能表现 - 在MV-Bench跨视角评测中,4D-VLA成功率73.8%,比OpenVLA提升23.3个百分点[39] - 真实机器人测试显示,加入3D坐标编码使成功率从47%提升至63.67%[44] - 多视角实验中,4D-VLA在极端±45°视角偏移下仍保持40-55%成功率[58] 技术优势 - 3D坐标对齐使模型在不同摄像机坐标中共享统一世界坐标系[40] - 历史帧记忆帮助维持多步推理链,解决长程任务中的失败问题[48] - 时空提示带来视角不变性,使模型聚焦于物体间真实空间关系[40][41]