文章核心观点 - 由西安交通大学、微软亚洲研究院等机构联合提出的VideoVLA框架,创新性地将大规模视频生成模型转化为端到端的视觉-语言-动作系统,通过“动作预测+视觉想象”的双目标策略,首次实现了机器人在未知场景下的稳健泛化,为通用机器人操控提供了全新技术路径 [2][3][26] 传统VLA模型的局限性 - 泛化能力受限:传统VLA模型依赖预训练视觉语言理解模型,对未知物体、未学习技能的适配能力差,难以应对真实世界的多样性 [5] - 缺乏物理推理能力:现有模型多专注于动作映射,缺乏对动作物理后果(如抓取受力、放置稳定性)的建模 [6] - 规划能力不足:复杂任务需预判动作序列的视觉反馈,传统模型缺乏“视觉想象-动作规划”的联动机制 [7][9] VideoVLA技术方案 - 核心思路:利用视频生成模型从海量真实世界视频中学到的物理合理性与场景动态规律,改造视频扩散Transformer,新增动作输出模态,实现“语言指令+当前视觉→动作序列+未来视觉”的端到端预测 [12] - 三层技术架构: - 输入编码层:语言指令用T5编码器转为226维令牌序列;视觉输入用CogVideoX的3D因果VAE编码器转为latent表征 [14] - 核心建模层:采用Diffusion Transformer统一建模视频、语言、动作三模态;动作用7维向量表征(3维旋转+3维平移+1维夹爪状态) [14] - 输出层:协同预测K步动作序列和N帧未来视觉latent,通过VAE解码器可还原为视频 [14] - 训练与推理: - 预训练基于Open X-Embodiment数据集(含超过100万机器人轨迹、22种机器人形态),迭代10万次 [14] - 真实世界微调使用Realman 7自由度机械臂数据集,迭代1.5万次 [14] - 推理采用DDIM采样(50步去噪),仿真场景预测49帧未来视觉,真实场景预测13帧 [14] 性能验证:域内任务 - WidowX机器人:在4项任务(如放置、堆叠)上平均成功率达到53.1%,远超基线模型RT-1-X(1.1%)和Octo-Base(17.0%) [15] - Google机器人:在VA协议下平均成功率达到62.8%,优于CogACT(61.4%)和π₀(43.4%)等先进模型 [15] - Realman机器人:在真实世界“放置”任务中平均成功率达到56.3%,显著高于OpenVLA(14.6%)和SpatialVLA(10.4%) [15] 性能验证:泛化能力 - 未知物体操控:在YCB和GSO数据集的10种未训练物体上,平均成功率达到65.2%,在8种物体上排名第一,远超OpenVLA(6.4%)和SpatialVLA(50.8%) [16] - 跨机器人技能迁移:将WidowX机器人的8种未训练技能迁移到Google机器人,平均成功率达到48.6%,比第二名CogACT(20.4%)高出28.2个百分点 [18] 关键发现与消融实验 - 视觉想象与执行强相关:未知物体场景中,视觉想象成功率84.0%,实际执行成功率65.2%;新技能场景中,视觉想象成功率63.4%,实际执行成功率48.6% [19][23] - 运动轨迹相似度分析:当视觉想象与实际执行的keypoint轨迹相似度高于0.6时,任务成功率超过80% [21] - 预训练骨干网络价值:使用CogVideoX-5B预训练模型性能达80.4%,比从零训练(12.6%)提升6倍 [22][25] - 预测帧数影响:预测49帧(80.4%)优于25帧(77.4%)和13帧(75.2%),更长时间视野提升规划准确性 [24][25] - 双预测策略核心作用:仅预测动作时平均性能降至25.5%,无视频损失时降至27.0%,验证双目标协同的必要性 [25] 当前局限与未来方向 - 当前局限: - 推理速度:单H100 GPU推理约1.1秒/步,控制频率3Hz,难以满足高速操控 [28] - 长序列任务:复杂多步骤任务的规划能力仍需提升 [28] - 小物体处理:微小物体在遮挡场景下的抓取成功率较低 [28] - 未来方向: - 模型轻量化,优化视频生成骨干网络以降低计算开销 [28] - 采用单步去噪等技术减少扩散步骤,提升推理速度 [28] - 引入触觉、力反馈等多模态传感器信息,增强物理交互精度 [28]
从视频生成到机器人操控:VideoVLA 开启通用机器人新范式
具身智能之心·2025-12-11 04:02