视觉 - 语言 - 动作模型(VLA)

搜索文档
北大-灵初重磅发布具身VLA全面综述!一文看清VLA技术路线与未来趋势
机器之心· 2025-07-25 02:03
核心观点 - 视觉-语言-动作模型(VLA)是将基础模型的智能从数字世界延伸至物理空间的关键技术路径,通过处理视觉与语言输入并生成实时动作,赋能机器人系统[1][9] - 北京大学-灵初智能联合实验室首次提出从动作词元化(action tokenization)视角统一理解VLA模型的新框架,系统分析八种主流action token及其发展趋势[2][8] - VLA模型的快速发展受基础模型与数据资源双重驱动,呈现U形演进结构[15] VLA统一框架与Action Token分类 - VLA模型通用框架:视觉与语言输入经VLA modules逐级处理,生成逐渐具体的action token并转化为动作输出[10][11] - VLA module定义为支持端到端梯度传播的最大可微子网络或不可微功能模块,承担场景感知、动作规划等特定能力[12] - Action token是VLA modules间传递的动作表示,可理解为"动作语言",当前主要分为八类[13][16]: - Language Description(语言描述):分为子任务级language plan和原子动作级language motion[16] - Code(代码):含逻辑控制和机器人API调用的程序代码[22] - Affordance(可操作性):基于空间的交互表示如关键点、边界框等[25][26] - Trajectory(轨迹):时空连续状态序列[29][30] - Goal State(目标状态):任务预期结果的视觉呈现[34] - Latent Representation(隐式表示):预训练得到的动作相关隐向量序列[36] - Raw Action(原始动作):关节角度等底层控制指令[38] - Reasoning(推理):解释动作原因的自然语言思考过程[42] Action Token发展趋势 - 未来VLA模型将采用多种token协同架构:language plan用于高层任务分解,affordance+trajectory+goal state实现精细控制[10][21] - Code需构建更完善机器人API库并引入形式化验证机制以释放潜力[24] - Affordance将向三维表达、时序建模和鲁棒性增强方向发展[33] - Trajectory需突破三维空间表征、轻量化生成和语义融合等挑战[32] - Latent representation需解决粒度、语义覆盖和任务对齐问题[37] - Raw action面临数据规模不足和跨本体泛化等瓶颈[41] - Reasoning需平衡实时性与推理深度[46] 产业化进展 - 灵初智能自研VLA模型Psi R1已在麻将机器人场景验证,将在2025世界人工智能大会展示30分钟连续博弈能力[2][51] - 公司计划在WAIC 2025集中展示外卖机器人、超市打包机器人等应用案例[3] - 技术路线从理论突破走向实际应用,标志具身智能向认知决策和长程操作的关键跃迁[51] 数据支撑体系 - VLA数据金字塔分为三层: - 底层:网络数据与人类视频,建立通用视觉语言理解能力[47] - 中层:合成与仿真数据,提供高性价比动作标签数据[48] - 顶层:真实机器人数据,包含物理世界动态约束[49] - 当前最大规模机器人数据集仅百万级,远低于LLM所需的十亿级语料[41]
8万条!清华开源VLA数据集:面向自动驾驶极端场景,安全提升35%
自动驾驶之心· 2025-07-22 12:46
自动驾驶技术发展 - 自动驾驶技术在结构化环境(如城市道路与高速公路)已取得显著进展,但非结构化场景(如乡村小径、标识模糊路段、灾后修复区域)仍是关键突破口 [4] - 非结构化场景的挑战包括道路边界模糊、非常规动态障碍物、临时交通规则变动及复杂路况,这些场景对自动驾驶系统的鲁棒性提出更高要求 [5][12][13] Impromptu VLA数据集 - 数据集包含8万余条精选视频片段,提炼自8个开源数据集的200余万条原始素材,聚焦四大非结构化场景:边界模糊道路、临时交通规则变动、非常规动态障碍物及复杂路况 [5][8][12] - 数据集采用多任务标注系统与路径规划轨迹数据增强,通过视觉-语言模型(VLMs)进行思维链推理和人工核验确保高质量标注 [5][16][17] - 数据集构建流程包括关键片段筛选、稳定性过滤、基于思维链的场景分类与结构化信息提取、多任务标注生成及全量人工核验 [15][16][17][18] 实验与性能提升 - 基于Impromptu VLA微调的视觉-语言模型(VLA)在NeuroNCAP闭环测试中平均得分从1.77/5.00提升至2.15/5.00,碰撞率从72.5%降至65.5% [6][21][22] - 在nuScenes开环轨迹预测评估中,微调模型的平均L2误差降至0.30m,性能逼近EMMA+等专用方法(0.29m) [6][23][24] - 模型在非结构化场景下的感知、预测与规划能力均呈现显著提升,例如交通弱势群体感知准确率从0.87提升至0.91,动态物体预测准确率从0.20提升至0.92 [26][27] 行业应用与展望 - Impromptu VLA数据集为开发更鲁棒、自适应的自动驾驶系统提供了关键资源,尤其在非结构化场景的应对能力上具有重大价值 [29] - 自动驾驶行业正围绕端到端自动驾驶、大模型、VLA、仿真测试等技术方向展开深入研究,涉及感知、定位、规划控制等多个领域 [31][33]