Workflow
潜动作学习
icon
搜索文档
LatBot:中科院团队提出潜在动作蒸馏,提升机器人VLA小样本迁移效率
具身智能之心· 2025-12-04 00:04
研究背景与挑战 - 潜动作学习是视觉-语言-动作模型的重要研究方向,旨在从连续帧中提取压缩的运动语义,形成与机器人实体无关的通用表示,以利用大规模人类视频扩展训练数据,突破传统机器人数据集的限制[2] - 现有潜动作模型存在三大关键问题:缺乏任务指令引导,无法捕捉任务相关变化;对多帧信息利用不足,导致潜动作表示不精确;过度关注视觉外观变化,缺乏物理感知,造成潜动作表示与实际可执行动作间的语义鸿沟[2] 核心方法设计 - 提出解耦的潜动作表示,将潜动作分解为两个互补的可学习token,分别编码结构化的场景表示和运动表示,以明确区分机器人主动运动与环境被动变化[4] - 场景token捕捉物体位置、姿态、背景动态等环境被动变化[7] - 运动token编码机器人末端执行器的平移、旋转、夹爪动作等主动运动[7] - 设计统一潜动作解码器,以潜动作为条件,联合引导未来帧重建和帧间动作生成,该解码器基于预训练图像生成模型SANA初始化[5] - 通过层-wise双向交互逐步融合场景和运动信息,实现空间线索与动态线索的渐进融合,最终解码出未来视觉帧和帧间动作[11] - 为将潜动作知识迁移到VLA模型,设计双损失蒸馏策略,包括潜动作对齐损失和推理保留损失,整体蒸馏目标通过一个默认设为0.5的参数平衡两者[8][9] - 蒸馏后,通过动作专家微调将潜表示转化为可执行的机器人动作,微调损失分解为末端执行器损失和夹爪状态损失[9] 实验验证与关键结果 - 预训练数据集融合了OXE、AgiBoT、EgoDex等机器人和人类手部操作数据,共100万视频片段[12] - 在SIMPLER基准测试中,在Google机器人的视觉匹配和变体聚合设置下,平均成功率分别达78.0%和70.1%,显著超过基线;在WidowX机器人上平均成功率87.5%,较基线提升32.3%[12] - 在LIBERO基准的四个任务套件上平均成功率98.0%,其中LIBERO-Long任务较基线提升3.0%[12] - 在Franka真实机器人的5个复杂任务中展现出优异的少样本迁移能力[10] - 仅用10个演示样本时,颜色识别任务成功率达60%,而基线模型完全失败[12] - 50个演示样本下,块插入任务成功率80%,刷子蘸酱任务成功率50%,均大幅超越基线[12] - 全量数据训练时,多个任务成功率达80%-100%[12] - 组件消融实验表明,解耦潜动作表示和统一动作解码器具有显著协同作用,单独使用DLA可将基线平均成功率从51.0%提升至59.4%,单独使用UAD可提升至61.5%,两者结合后成功率跃升至87.5%[10][13] - 通过注意力图可视化发现,蒸馏后的VLM能更精准地定位任务相关目标,在存在干扰物时对真实目标的响应更集中,证明潜动作知识增强了模型的空间接地能力[14] 核心结论与展望 - 关键洞察是通过任务指令引导、多帧输入利用、物理先验融入以及运动与环境变化的解耦,能学习到通用且可迁移的潜动作表示[18] - 核心贡献是提出的LatBot框架通过解耦表示、统一解码器和双损失蒸馏,实现了仿真与真实环境下的优异性能,尤其在少样本场景中表现突出[18] - 未来方向是从更大规模、更多样化的操作视频中提取额外潜token,进一步扩展VLA模型的规模,探索其在更复杂、长程、多实体机器人任务中的潜力[18]