Workflow
视觉语言模型(VLA)
icon
搜索文档
理想连发两篇VLA机器人论文
理想TOP2· 2025-12-02 07:29
核心技术发布 - 公司发布Compressor-VLA与AVA-VLA两项技术,旨在解决机器人操作场景中端到端模型过重、过慢及健忘的核心落地难题[1] 现有问题分析 - 现有具身智能大模型存在严重算力浪费,耗费巨量算力处理无关视觉信息(如背景墙纸、地板纹理),导致推理延迟过高,无法满足机器人实时控制需求[2] - 传统任务无关压缩算法在压缩过程中会误删关键任务线索,例如为降低计算量可能保留清晰的桌布图案却丢弃模糊但至关重要的物体边缘或把手位置[2] - 主流VLA模型采用单帧处理模式,丢弃历史上下文信息,导致在面临遮挡、动态变化或长序列任务时因看不懂因果关系而表现笨拙[8] Compressor-VLA解决方案框架 - 采用双通道互补结构:通道一(指挥官)负责全局宏观语义提取,通道二(工匠)负责局部空间几何细节保留,所有视觉处理需先经过语言指令过滤和调制[3] - 核心驱动力为指令即滤镜,直接复用VLA模型内部语言向量,将自然语言指令转化为信号向量动态调整视觉处理器参数,实现智能像素权重调节[4] - 语义任务压缩器使用交叉注意力机制,根据语言指令生成可学习探针进行全局扫描,仅提取任务相关语义信息(如指令为拿杯子则只提取杯子相关信息)[5] - 空间精炼压缩器使用局部窗口注意力机制,将图片切分小窗口并注入语言指令提示,在保留原始空间结构前提下高亮显示任务相关细节(如物体边缘、抓取点)[6] AVA-VLA解决方案框架 - 设计信念状态生成器,负责压缩并保存上一时刻模型思考状态作为短期记忆向量[9] - 核心主动视觉注意力模块结合记忆和当前指令,指导视觉编码器主动搜索画面关键点(如重点看左下角把手,忽略背景桌子)[9] - 采用交叉检索策略,以当前图像特征为查询方,上一时刻记忆向量为被查询方,计算连续增益系数以放大关键区域信号(如物体边缘)并衰减无关区域信号(如背景墙)[9][10] - 训练时引入注意力平衡惩罚机制,强制所有视觉Token平均权重维持在合理预设值(如0.6)附近,防止模型偷懒,必须有选择性地分配注意力[10] 技术效果与优势 - 数据流转过程为:感知输入(图像+文本指令)→指令调制→双轨并行处理(语义路提取概念Token,空间路提取特征Token)→融合决策→动作输出(机械臂控制信号)[6] - 推理采用循环推流模式:初始化空记忆→感知与加权(读当前帧,调上一帧记忆,AVA计算权重,增强视觉特征)→决策与更新(预测动作,刷新记忆)→循环下一帧[11] - 相比于单帧处理的OpenVLA,AVA-VLA在光照变化、背景干扰和物体布局变动等高噪声环境下成功率显著提升[11] - AVA模块可删除低权重视觉Token,实验表明即使删除90%视觉信息仅保留10%核心内容,机器人操作成功率几乎无下降,推理速度可大幅提升[11]
理想认为VLA语言比视觉对动作准确率影响更大
理想TOP2· 2025-08-16 12:11
论文核心观点 - 理想发布DriveAction基准测试集,旨在评估VLA模型的人类驾驶决策能力,包含2610个驾驶场景和16185对问答数据 [1][3] - 实验表明VLA模型需同时结合视觉和语言输入才能准确预测动作:无视觉输入时准确率下降3.3%,无语言输入下降4.1%,两者均无下降8.0% [3][6] - 这是首个专为VLA设计的动作驱动基准测试集,数据来自量产辅助驾驶汽车的真实驾驶场景 [3] 数据集与技术细节 - DriveAction数据集已开源,包含导航指令、车道属性和动作决策三类问题,例如判断当前车道属性或是否允许转弯 [3][4] - 数据采集基于"智行家"系统,上月下载量达544次 [3] - 测试集设计涵盖视觉(V)、语言(L)、动作(A)三种模态组合的评估模式 [4][5] 模型性能分析 - 综合评估显示所有模型在完整V-L-A模式下准确率最高(如GPT-4.1 mini达91.43%),纯动作模式(A)最低(如Claude 3.5 Sonnet仅80.63%)[5][6] - 推理模型在V-L-A模式下普遍优于非推理模型(如ol模型93.56% vs GPT-4o 88.84%),但在A模式下优势不明显 [5][6] - 特定任务中模型表现分化:GPT-4o在道路标记语言类问题达90.4分,而Claude 3.7 Sonnet在同类任务仅58.2分 [7][8] 稳定性与行业应用 - GPT-4.1 mini和Gemini 2.5 Pro表现最优稳定性,三次重复测试标准差低于0.3 [9] - 该研究为自动驾驶行业提供标准化评估工具,凸显多模态融合对决策准确性的关键作用 [3][6]