3D VLA操作新范式BridgeVLA - 核心观点:BridgeVLA通过将输入输出对齐到2D空间的全新范式,实现了3D视觉语言操作模型在数据效率和操作效果上的同步突破,在多项基准测试中刷新记录[1][4][6] - 技术原理:采用2D Heatmap预测替代传统Next Token Prediction,通过正交投影将3D点云转化为2D图像输入,实现VLM与VLA的输入输出对齐[6][7][11] - 预训练方法:创新性地通过图片-目标文本对预训练,使用可学习凸上采样方法生成与输入同尺寸的Heatmap,赋予模型目标检测能力[8][10] - 动作预测机制:采用由粗到细的多级预测方式,首次Heatmap定位后对目标区域点云放大裁剪进行二次精细预测[12] 性能表现 - RLBench基准:在18个复杂任务中平均成功率从81.4%提升至88.2%,在10个任务中表现最佳,高精度插入任务(如Insert Peg)成功率高达88%[14] - COLOSSEUM基准:在12种扰动测试下平均成功率从56.7%提升至64.0%,14种评估扰动中13种表现最优,光照变化场景成功率提升至69.7%[15] - GemBench基准:在L1-L4四级挑战中平均成功率50%领先,L2刚性物体操作达到65%成功率,但L4长周期任务仍有局限[16][17] - 真实机器人测试:13个基础任务中6种泛化测试表现优异,干扰物和背景变换场景保持超高成功率[19][20] 技术优势与未来方向 - 效率突破:仅需3条操作轨迹即可达到96.8%成功率,显著优于传统3D操作策略需要的≈10条轨迹[2][4] - 泛化能力:在视觉干扰、任务组合等复杂场景展现强大适应性[1][20] - 未来优化:计划扩展语义分割等预训练任务,整合扩散模型提升动作解码能力,结合LLM改善长周期任务表现[22]
3D VLA新范式!中科院&字节Seed提出BridgeVLA,斩获CVPR 2025 workshop冠军!
机器之心·2025-06-24 01:46