Workflow
DreamVLA
icon
搜索文档
聊聊DreamVLA:让机器人先看后想再动
具身智能之心· 2025-08-11 00:14
DreamVLA模型概述 - 提出一种新型视觉-语言-动作(VLA)模型DreamVLA 通过预测环境动态、空间和语义信息提升机器人动作决策精度 [1] - 采用"感知-预测-动作"循环框架 将动作规划视为逆动力学问题 通过预测未来环境状态推导动作 [6][7] - 在CALVIN ABC-D基准测试中平均任务完成长度达4.44 模拟环境性能比前代方法高3.5% 现实世界任务成功率76.7% [25] 技术架构 输入处理 - 多模态输入编码:语言指令(CLIP ViT-B/32文本编码器)、视觉图像(MAE预训练ViT-B模型处理双路摄像头)、机器人状态(可训练编码器) [10][14] - 采用perceiver resampler压缩视觉特征 将196个局部特征向量和全局[CLS] token压缩至可管理规模 [14] 世界知识预测 - 动态区域预测:使用CoTracker光流跟踪算法 通过速度阈值筛选生成二值化动态区域掩码 聚焦移动物体 [12][15] - 深度预测:有深度传感器时直接监督训练 无传感器时采用DepthAnything自监督 输出尺度归一化深度图 [13][16] - 语义预测:并行使用DINOv2(语义向量)和SAM(分割掩码) 通过轻量级ViT解码器输出语义特征 [18][22] 动作生成 - 采用扩散Transformer(DiT-B)作为动作解码器 从高斯噪声逐步生成7维动作向量(6维空间位移+1维抓手状态) [23] - 引入块状结构化注意力机制 结合因果/非因果注意力确保多步动作连贯性 [19] - 使用查询token引导未来世界知识预测 与输入序列拼接后生成世界嵌入 [20] 性能验证 - 消融实验显示动态区域预测贡献最大 深度/语义预测结合动态区域可进一步提升性能 [31] - 结构化注意力机制比普通因果注意力更稳定 分开查询优于共享查询 [31] - 使用DROID数据集(7.6万条轨迹)预训练 仅需100个任务特定演示微调即可展现强泛化能力 [25] 应用前景 - 框架兼容现有VLA模型 特别适合助手机器人和导航场景 [27] - 动态区域掩码能有效抑制背景干扰 深度地图辅助避障 语义特征提升物体交互精度 [17][22]
DreamVLA:全球首个“世界知识预测”VLA模型,操作成功率近八成
具身智能之心· 2025-07-10 13:16
研究背景与动机 - 视觉-语言-动作(VLA)模型在机器人操作领域展现出潜力,但现有方法存在信息冗余、缺乏动态和空间知识等问题,难以形成闭环的感知-预测-动作循环 [3] - 人类行动前会形成多模态推理链,而现有VLA模型直接从观测映射到动作,缺乏前瞻推理能力 [3] - 部分方法尝试生成未来帧或关键点辅助动作预测,但仍存在像素冗余、3D空间信息缺失和高层语义不足等局限 [3] 模型设计核心思路 - DreamVLA通过预测动态区域、深度和语义三类核心世界知识,构建更有效的感知-预测-动作循环 [4][5] - 动态区域预测利用光流模型识别任务关键运动区域,避免冗余帧重建,优化目标为最大化对数似然的证据下界 [4] - 深度感知预测采用深度估计算法生成深度图,提供3D空间上下文,通过尺度归一化均方误差训练 [5] - 高层基础特征整合DINOv2和SAM等视觉基础模型的语义特征,通过InfoNCE损失进行对比语义预测 [5] 结构注意力与动作生成 - 块结构注意力机制将查询分解为动态、深度、语义三个子查询,屏蔽子查询间相互注意力,避免跨类型知识泄露 [6] - 采用扩散Transformer解码器从共享潜在特征中分离动作表示,通过迭代自注意力和去噪过程生成动作序列 [8] 实验结果与分析 - 在CALVIN模拟基准上,DreamVLA平均任务长度达4.44,超过RoboVLM(4.25)和Seer(4.28)等方法 [9][10] - 真实世界实验中,DreamVLA在Franka Panda机械臂任务中平均成功率达76.7%,显著高于Diffusion Policy(50.8%)和Octo-Base(45.0%) [10] - 消融实验显示动态区域预测单独使用时增益最大,深度和语义线索增益较小但接近 [11] - 预测未来知识的性能(平均长度4.44)显著优于仅重建当前信息(4.14) [12] - 块结构注意力使平均任务长度从3.75提升至4.44,证明其在抑制跨信号干扰中的有效性 [13] 核心贡献与局限 - 将VLA模型重构为感知-预测-动作模型,通过预测动态、空间和高层语义信息提供前瞻线索 [16] - 提出块结构注意力机制结合扩散Transformer解码器,实现连贯的多步动作推理 [16] - 当前主要适用于平行夹爪操作,依赖RGB数据,场景几何和材料多样性有限 [15]