Workflow
时空连贯的机器人操作
icon
搜索文档
新国立提出VLA-4D:4D感知VLA模型,实现时空连贯的机器人操作
具身智能之心· 2025-11-25 00:03
文章核心观点 - 提出VLA-4D模型,通过融合3D空间与1D时间信息,将4D感知嵌入视觉-语言-动作模型,旨在解决通用机器人任务中时空连贯操作的瓶颈问题 [2][4][5] - 该模型的核心创新在于双重视空融合,通过4D感知视觉表征和时空动作表征,统一提升机器人操作的视觉推理精细度和动作规划的时间连贯性 [4][5] - 在LIBERO基准测试中,VLA-4D模型在多项任务上取得显著领先性能,平均成功率高达97.4%,远超现有2D、3D及4D模型 [19] 模型提出的背景与动机 - 现有2D VLA模型依赖单帧图像输入,存在视觉推理粗糙和2D-3D坐标不匹配问题,导致动作空间精度不足和时空不连续 [6] - 3D VLA模型虽提升了空间平滑性,但缺乏对时间维度的显式建模,易出现动作卡顿、抖动等时间连贯性问题 [6] - 核心目标是通过融合空间与时间信息,同时增强视觉推理和动作规划的精细度,实现机器人操作的空间平滑性与时间连贯性统一 [4] 核心设计与技术细节 - 整体框架采用双重视空融合,将4D信息嵌入视觉表征用于推理,将时间变量融入动作表征用于规划,通过多模态对齐让大语言模型输出时空连贯的动作指令 [5] - 4D感知视觉表征设计包含3D空间与1D时间编码,以及交叉注意力融合机制,生成兼具语义、几何与时空特性的视觉表征 [7][10] - 交叉注意力融合策略相比拼接和加权策略表现更优,在LIBERO-Spatial任务中成功率高达97.9%,完成时间仅4.1秒 [11] - 时空动作表征在传统空间动作参数基础上新增时间变量Δt,用于调控动作执行节奏,形成完整的时空动作表征 [12] 数据集与训练流程 - 基于LIBERO数据集进行扩展,新增时间标注,最终包含40个子任务、15万组视觉-语言-动作样本,覆盖四大场景 [16] - 采用两阶段训练策略:第一阶段进行4D视觉-语言对齐,第二阶段进行机器人任务微调 [15][22] - 两阶段训练相比单一微调能显著提升性能,在LIBERO-Goal任务中成功率从90.7%提升至97.8% [17][18] 实验验证与性能表现 - 在LIBERO基准测试中,VLA-4D在空间推理、物体理解、目标达成和长时规划任务的成功率分别为97.9%、98.6%、97.8%、94.8%,平均成功率97.4%,完成时间仅5.8秒 [19] - 在零样本任务中仍保持高成功率和短执行时间,证明时空表征具有较强的泛化能力 [19] - 动作轨迹全局平滑、局部速度稳定,无卡顿或抖动,时空规划质量显著优于对比模型 [21] 消融实验与关键发现 - 视觉表征模块中,空间嵌入、时间嵌入、特征融合三者缺一不可,同时启用时空间推理任务成功率从89.4%提升至97.9%,完成时间从5.7秒缩短至4.1秒 [24] - 动作表征模块加入时间参数后,完成时间从5.0秒降至4.1秒,效率显著提升 [27] - 视频输入+4D线索是核心,单图像输入的成功率仅85.9%,验证了视频和4D信息的重要性 [27] - 特征分布分析显示,4D视觉特征形成连续的时空流形,对应的动作特征时空连贯,实现高成功率与短耗时的统一 [25]