Franka Panda机械臂

搜索文档
穆尧团队最新!离散扩散引入VLA,支持精确动作建模和一致性训练
具身智能之心· 2025-09-02 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zhixuan Liang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 当机器人看到 "把勺子放在毛巾上" 的指令,如何精准理解图像中的物体位置、解析语言含义,并生成连贯动作?视觉 - 语言 - 动作(VLA)模型正是解决这一问 题的核心技术,但当前方案却陷入两难:自回归模型像 "念课文" 一样逐字生成动作,速度慢还改不了错;连续扩散模型虽能处理复杂动作,却要在主模型外 "外 挂" 模块,训练难、兼容性差。 Discrete Diffusion VLA 提出的 "离散扩散视觉 - 语言 - 动作模型",直接打破了这一困局!它把离散扩散技术首次引入 VLA 动作解码,用一个 Transformer 就统一 了视觉、语言、动作三模态——既不用额外训练扩散模块,又能像 "做拼图" 一样并行解码动作,还能通过 "先拼简单块、再补复杂处" 的策略修正错误。 在 Franka Panda 机械 ...
cVLA:面向高效相机空间VLA模型的关键位姿预测方法
具身智能之心· 2025-07-06 11:54
视觉-语言-动作(VLA)模型研究 - 提出一种新型VLA方法,利用视觉语言模型(VLMs)直接推断机器人末端执行器在图像帧坐标中的位姿,取代传统低级控制指令输出 [2] - 模型设计轻量但高效,采用next-token预测架构学习可执行机器人轨迹,并探索深度图像潜力及解码策略 [2] - 通过模拟数据集训练展现良好模拟到现实迁移能力,结合真实数据验证在机器人系统的有效性 [2] 技术挑战与解决方案 - VLA发展面临三大约束:高计算成本(需大量资源训练)、数据限制(高质量多模态数据集采集难)、评估基准依赖真实世界测试 [3] - 采用可控合成数据集训练轻量VLA系统,基于PaliGemma架构微调,任务定为末端执行器关键位姿单步预测以提升效率 [3][6] - 利用模拟训练构建含丰富相机视角和目标变化的数据集,通过增强设计实现模拟到现实迁移 [3][10] 模型架构与动作表示 - 基础模型基于PaliGemma2微调,输入格式为<实时图像>+<机器人状态>+<任务描述>→<预测轨迹> [6] - 动作表示借鉴RT-1,用离散化令牌编码6自由度夹爪位姿,扩展定位令牌预测深度,分割令牌编码方向 [6] - 深度图通过viridis色图转换为RGB,复用预训练图像编码器处理 [7] 数据集生成与评估 - 使用ManiSkill模拟器生成数据,含CLEVR几何形状和Objaverse真实目标两类3D资产,应用图像增强与随机化 [9][10] - 真实评估采用DROID数据集子集(DROID-hard含干扰目标,DROID-easy测试泛化性),计算预测与真实位姿的L1误差 [11] - 消融实验显示深度信息显著提升模拟成功率,多样化3D资产对泛化至Objaverse场景至关重要 [12] 实验性能与推理优化 - 单样本模仿实验中,CLEVR-easy训练模型在模拟成功率达70%,而hard版本在真实数据表现更优(轨迹L1误差11.56) [16][17] - 输入图像裁剪策略改善小目标定位性能,多预测生成采用beam-search-NMS解码策略优于贪婪搜索(Top-1误差33.42) [18][20][23] - 提出使用平均精度(mAP)评估轨迹分布,设定L1距离阈值反映操作准确性 [23]