Franka Panda机械臂 - 财报，业绩电话会，研报，新闻

Franka Panda机械臂

搜索文档

具身智能之心· 2025-09-02 00:03

核心观点 - 提出一种名为“离散扩散视觉-语言-动作模型”的新方法，首次将离散扩散技术引入VLA模型的动作解码部分，旨在解决现有自回归模型和连续扩散模型的固有缺陷 [1] - 该模型采用单一Transformer架构统一处理视觉、语言和动作三种模态，无需额外训练扩散模块，实现了训练流程的简化与性能的提升 [1][6] - 在多项机器人任务实验中展现出显著优势，成功率全面超越传统自回归与连续扩散基准模型，证明了其在处理复杂指令和场景变化方面的有效性与鲁棒性 [2][12] 技术背景与现有挑战 - 当前视觉-语言-动作模型主要面临两种范式的挑战：自回归方法存在无法并行解码和长序列生成延迟高的“自回归瓶颈”；连续扩散方法则需要独立的扩散训练流程，导致动作生成模块与视觉语言主干网络割裂，架构复杂 [4][6] - 现有方案如OpenVLA、π₀-FAST属于自回归方法，而π₀、SmolVLA则属于连续扩散方法 [4] 模型架构与创新点 - 核心创新在于首次为VLA模型引入离散扩散动作头，并在单一Transformer中统一动作生成与视觉-语言处理 [7] - 架构基于OpenVLA的Prismatic-7B VLM主干网络构建，输入编码层统一处理多视角RGB图像、标记化指令和离散化后的动作块token，通过统一的Transformer层进行编码，输出层仅对动作token进行预测 [11][13] - 提出了“先易后难”的自适应解码策略，结合迭代重掩码技术，支持动作token的并行解码和误差校正 [10][12] 训练与推理流程 - 训练流程通过模拟离散扩散加噪进行，采用随机掩码动作token并计算交叉熵损失的方式，其训练目标与VLM的掩码语言建模完全兼容，可直接复用预训练管线 [11][14] - 推理流程采用迭代去噪方式，默认进行12轮迭代，通过自适应选择保留高置信度token和二次重掩码校验来生成最终动作序列，函数评估次数相比自回归模型减少4.7倍 [15][18] 实验结果与性能分析 - 在LIBERO任务的Franka Panda机械臂测试中，平均成功率高达96.3%，在Object、Spatial、Goal、Long四个套件上分别达到98.6%、97.2%、97.4%和92.0%，均优于对比模型 [21][22] - 在Google机器人的SimplerEnv测试中，视觉匹配率达到71.2%，整体成功率为64.1%，表现出对场景变化的良好鲁棒性 [23][24] - 在WidowX机器人的真实-模拟迁移场景测试中，整体成功率达到49.3%，在“把勺子放在毛巾上”等具体任务中抓取成功率为70.8%，显著领先于其他模型 [25][26] 消融实验验证 - 对解码策略的消融实验表明，采用“最大置信度”的自适应策略成功率最高，达97.4%，优于并行解码和随机顺序等策略 [27][29] - 对选择温度的消融实验表明，采用衰减温度调度（Temp=1-t）的方案成功率达97.4%，优于硬采样和固定温度方案，验证了温度调度与自适应解码的协同作用 [28][29]

具身智能

离散扩散视觉 - 语言 - 动作模型（Discrete Diffusion VLA）

离散扩散视觉 - 语言 - 动作模型（Discrete Diffusion VLA）

cVLA：面向高效相机空间VLA模型的关键位姿预测方法

具身智能之心· 2025-07-06 11:54

视觉-语言-动作（VLA）模型研究 - 提出一种新型VLA方法，利用视觉语言模型（VLMs）直接推断机器人末端执行器在图像帧坐标中的位姿，取代传统低级控制指令输出 [2] - 模型设计轻量但高效，采用next-token预测架构学习可执行机器人轨迹，并探索深度图像潜力及解码策略 [2] - 通过模拟数据集训练展现良好模拟到现实迁移能力，结合真实数据验证在机器人系统的有效性 [2] 技术挑战与解决方案 - VLA发展面临三大约束：高计算成本（需大量资源训练）、数据限制（高质量多模态数据集采集难）、评估基准依赖真实世界测试 [3] - 采用可控合成数据集训练轻量VLA系统，基于PaliGemma架构微调，任务定为末端执行器关键位姿单步预测以提升效率 [3][6] - 利用模拟训练构建含丰富相机视角和目标变化的数据集，通过增强设计实现模拟到现实迁移 [3][10] 模型架构与动作表示 - 基础模型基于PaliGemma2微调，输入格式为<实时图像>+<机器人状态>+<任务描述>→<预测轨迹> [6] - 动作表示借鉴RT-1，用离散化令牌编码6自由度夹爪位姿，扩展定位令牌预测深度，分割令牌编码方向 [6] - 深度图通过viridis色图转换为RGB，复用预训练图像编码器处理 [7] 数据集生成与评估 - 使用ManiSkill模拟器生成数据，含CLEVR几何形状和Objaverse真实目标两类3D资产，应用图像增强与随机化 [9][10] - 真实评估采用DROID数据集子集（DROID-hard含干扰目标，DROID-easy测试泛化性），计算预测与真实位姿的L1误差 [11] - 消融实验显示深度信息显著提升模拟成功率，多样化3D资产对泛化至Objaverse场景至关重要 [12] 实验性能与推理优化 - 单样本模仿实验中，CLEVR-easy训练模型在模拟成功率达70%，而hard版本在真实数据表现更优（轨迹L1误差11.56） [16][17] - 输入图像裁剪策略改善小目标定位性能，多预测生成采用beam-search-NMS解码策略优于贪婪搜索（Top-1误差33.42） [18][20][23] - 提出使用平均精度（mAP）评估轨迹分布，设定L1距离阈值反映操作准确性 [23]