OpenVLA - 财报，业绩电话会，研报，新闻 - Reportify

OpenVLA

搜索文档

北大新作EvoVLA：大幅降低机器人幻觉，长序列成功率暴涨10%

具身智能之心· 2025-11-30 03:03

文章核心观点 - 具身智能领域在长序列操作任务中面临视觉语言动作模型产生“阶段性幻觉”的关键挑战，即机器人未完成步骤却误判为已完成[2][3][4] - 北京大学团队提出的自进化VLA框架EvoVLA通过三大创新模块有效解决了该问题，在复杂任务基准上实现显著性能提升[5][7][40] - EvoVLA框架的核心创新在于利用大语言模型生成“硬负样本”进行对比学习，结合几何探索与长程记忆机制，推动模型自我进化[9][10][41][42] 技术问题分析 - 现有通才机器人策略在简单任务上展现零样本泛化能力，但在长程操作任务中暴露出“阶段性幻觉”致命弱点[2] - 视觉语言模型评估系统因视觉相似性给出高预测分数，导致机器人“高分低能”，自信跳过未完成步骤[4] - 这种现象在需要几十步操作的长序列任务中尤为突出，最终导致整个任务崩溃[4] EvoVLA解决方案 - 框架基于OpenVLA-OFT架构，引入三个协同工作的核心模块实现自监督强化学习闭环[10] - 阶段对齐奖励模块利用Gemini 2.5 Pro生成包含70+阶段的详细描述，构建正样本、负样本和关键性的“硬负样本”[13][14] - 基于姿态的物体探索模块训练轻量级世界模型预测相对几何姿态，避免像素干扰，专注操作任务几何结构[19][20][21] - 长程记忆机制采用基于注意力的上下文选择，从历史库检索Top-K最相关Token融合到当前状态[23][24][25] 性能验证结果 - 在Discoverse-L新基准测试中，EvoVLA平均成功率达到69.2%，相比最强基准OpenVLA-OFT的59.0%提升10.2个百分点[34] - 样本效率显著提升，达到50%成功率所需训练步数减少1.5倍[35] - 幻觉率从38.5%大幅降低至14.8%，降幅达23.7个百分点[1] - 在真实机器人部署中，EvoVLA平均成功率达到54.6%，超越OpenVLA-OFT 11.0个百分点[7] - 在未见过的“堆叠+插入”任务中，通过少量真机微调达到55.2%成功率，比OpenVLA-OFT高出13.4%[37] 行业意义 - EvoVLA为解决VLA模型在长程任务中的可靠性问题提供了优雅解法[40] - 证明更好的奖励设计、更本质的探索机制和更聪明的记忆可以让大模型在具身智能领域走得更远[41] - 利用大语言模型生成“错题集”反哺策略学习的“自我进化”范式，可能是通往通用机器人自主学习的关键一步[42]

自监督强化学习

自监督强化学习

VLA2：浙大x西湖大学提出智能体化VLA框架，操作泛化能力大幅提升

具身智能之心· 2025-10-24 00:40

文章核心观点 - 提出视觉-语言-动作智能体VLA² 通过调用多样化工具来增强VLA系统能力旨在解决现有模型在处理完全陌生概念指令时无法迁移操作经验的问题 [1] - VLA²作为系统级集成框架能够整合任务规划、网络搜索、目标检测等功能模块从而突破现有VLA模型的执行能力边界 [1] 方法概述 - VLA²包含三大核心模块：初步信息处理、认知与记忆以及核心模块 [3] - 使用GLM-4V进行任务分解将复杂指令拆解为可执行的子任务序列 [4] - 利用微调后的MM-GroundingDINO进行目标检测提取物体与位置的边界框 [4] - 通过视觉路径对未知物体进行网页图像检索生成关键词并构建视觉记忆辅助模型重新识别 [4] - 通过语言路径将任务中未见的物体名称替换为模型已知的词汇实现语义对齐 [4] 核心模块与实验验证 - 在原始的LIBERO Benchmark上 VLA²与SOTA的VLA模型进行对比在Class 2类别中平均成功率为80.1% 略高于OpenVLA的76.5% [6] - 基于LIBERO环境通过更改物体纹理构建三个难度递增测试场景：Easy仅改变物体颜色、Medium替换为数据集中未出现的物体、Hard引入全新物体如茅台酒瓶和青花瓷碗 [7][10] - 在Hard场景中VLA²成功率大幅领先所有其他SOTA模型达到76.2% 相比于单纯微调OpenVLA的32.0% 取得了44.2%的优势 [9] - 对VLA²三大关键机制进行消融实验结果显示视觉掩码注入、语义替换机制和网页检索增强均对模型性能有显著贡献 [11] 总结与展望 - VLA²通过引入外部工具与记忆机制成功扩展了VLA模型对未知物体的认知与操作能力为开放世界中的机器人操作任务提供了可行的系统级解决方案 [12] - 未来将进一步探索其在真实世界中的泛化能力并扩展其支持更多类型的工具与任务 [12]

视觉-语言-动作模型

视觉-语言-动作模型

RLINF-VLA：一种用于 VLA+RL 训练的统一高效框架

具身智能之心· 2025-10-22 06:02

文章核心观点 - 研究团队提出了一个名为RLinf-VLA的统一高效框架，旨在解决视觉-语言-动作模型在强化学习训练中存在的框架零散、效率低下和缺乏统一比较平台的问题 [2] - 该框架通过高度灵活的资源分配设计和统一接口，可无缝支持多种VLA架构、RL算法与模拟器，显著提升了训练效率 [2] - 在仿真实验中，单一统一模型在130个LIBERO任务和25个ManiSkill任务上取得了极高的成功率，分别达到98.11%和97.66% [2][5] - 真实世界部署初步验证表明，经过RL训练的策略比监督微调策略展现出更强的泛化能力 [2][5] 框架设计 GPU分配策略 - 框架针对CPU并行与GPU并行模拟器资源利用模式的差异，支持三种GPU分配模式：共置模式、分离模式和混合模式，用户可通过配置文件轻松切换 [6][8] - 针对GPU并行模拟器，特别提出了“混合分配 + 细粒度流水线”策略，通过将单个GPU上的模拟器拆分为多个子模拟器来减少闲置时间 [8][10] - 混合细粒度流水线分配模式结合了共置和分离模式的优势，训练速度相比基准分离模式提升1.61至1.88倍 [2][35] 模型兼容性 - 框架支持LoRA这一参数高效微调方法，启用后可减少可训练参数、降低内存消耗并加速训练 [12] - 在模型类型上，目前支持OpenVLA（约70亿参数）和其扩展OpenVLA-OFT，后者优化了微调效率、推理速度与部署能力 [12] 多模拟器支持 - 框架选择ManiSkill（擅长基于物理的操作任务）与LIBERO（侧重指令驱动任务）作为主要模拟器，二者功能互补 [13] - 通过统一接口支持不同模拟器的向量化环境，并支持PPO和GRPO等多种强化学习算法 [13] 算法设计优势函数与对数概率 - 框架支持“动作块”概念，即策略在每个时间步预测一段短期未来动作序列，并为此定义了块级和动作级两种优势函数计算方式 [14] - 支持动作级、块级与令牌级三种对数概率计算粒度，不同选项会带来不同的优化动态 [15] - 优势函数类型兼容所有粒度不细于其自身的对数概率类型，并通过广播机制处理优势值 [17] PPO设计选择 - 在评价网络设计上，为避免增加计算开销，框架让动作网络与评价网络共享大部分参数，仅在VLA模型上附加轻量级价值头 [19] - 实验表明，OpenVLA-OFT模型使用动作级价值估计通常性能更优 [19] - 部分重置模式在“一次成功”优化目标下能提升样本效率，成功率始终高于固定episode长度模式 [19][41] GRPO设计选择 - 框架为GRPO实现了轨迹长度归一化损失，以均衡成功与失败轨迹在优化中的贡献，实验显示该设置能显著提升性能 [20][43] - 成功率过滤机制会丢弃所有轨迹回报相同的组，可提升GRPO训练稳定性，但其有效性具有任务依赖性 [20][46] 实验结果高性能表现 - 在ManiSkill的25个任务上，无论是OpenVLA还是OpenVLA-OFT模型，强化学习均带来显著性能提升，成功率相比基准提升45%至70% [21][22] - PPO算法在ManiSkill任务中始终优于GRPO，且训练稳定性更高 [22] - 在LIBERO的130个任务上训练单一模型，整体平均成功率从约65.43%提升至98.11%，性能提升约32.68个百分点 [26][28] 高效率表现 - 在GPU并行模拟器评估中，RLinf-VLA的混合模式（pipe=2）在8 GPU配置下吞吐量比基准分离模式提升1.88倍 [35] - 扩展到16与32 GPU时，混合模式通过流水线重叠计算与通信，仍比分离模式提升1.61至1.69倍 [35] - 对于CPU并行模拟器，RLinf-VLA的共置模式相比基准框架SimpleVLA-RL实现1.34至2.27倍的吞吐量提升 [35][37] 消融实验与超参数 - 动作级价值估计相比块级估计能实现更高的成功率与更低的价值损失，学习过程更有效 [39] - 有效动作掩码与轨迹长度归一化结合可带来性能提升，但其效果具有任务依赖性 [44] - 更大的轨迹批次大小有利于性能提升，且不同LoRA配置可能需要单独进行超参数调优 [48][50] 真实世界部署 - 在真实世界Franka机械臂上的部署实验对比了RL训练模型与SFT模型，任务涉及6个未见过物体的拾取放置 [51] - RL训练模型在30次尝试中成功8次，而SFT策略全部失败，显示出RL训练策略更强的零样本泛化能力 [5][51] - 除基础校准外未采用额外仿真-真实迁移技术，初步验证了基于仿真的强化学习在泛化能力上的优势 [51]

视觉 - 语言 - 动作（VLA）模型

强化学习（RL）

监督微调（SFT）

视觉 - 语言 - 动作（VLA）模型

强化学习（RL）

监督微调（SFT）

统一高效VLA+RL训练平台RLinf-VLA！

具身智能之心· 2025-10-13 00:02

核心观点 - RLinf-VLA是清华大学推出的首个面向具身智能的大规模强化学习框架，提供了一个统一、高效的平台用于视觉语言动作模型与强化学习的研究 [2] - 该框架的核心特点是“快”、“多”、“好”，系统级优化使吞吐量比基线平台提升2.27倍，支持大规模多任务训练，单个模型在130个任务中成功率高达98.11% [2] - 框架旨在解决当前VLA+RL研究中存在的算法设计分析不全面、基础设施上手难度高、算力昂贵等开发困境 [3] 系统设计 - 框架具有“统一”特性，支持LIBERO和ManiSkill两类典型仿真器，支持OpenVLA和OpenVLA-OFT两种主流模型，并支持PPO和GRPO两种强化学习算法 [5] - 框架具有“高效”特性，系统层面通过YAML文件可灵活切换3种分配模式，吞吐量提升高达2.27倍，算法层面引入了轻量化critic、轨迹长度归一化等优化设计 [5] - 针对不同仿真器的资源需求特点，框架提供了共享式、分离式、混合式三类GPU调度模式，并在混合式中支持细粒度流水设计，以优化资源调度减少GPU空闲 [6][7] - 在ManiSkill仿真器中，OpenVLA模型采用混合式细粒度流水调度模式（k=2）展现了最佳吞吐，吞吐量加速达1.61倍至1.88倍 [7][43] - 在LIBERO仿真器中，OpenVLA-OFT模型的最佳调度模式是共享式，其训练速度比基线快1.34倍至2.27倍 [44] 算法设计 - 框架定义了VLA模型输出的三个粒度：Token-level、Action-level和Chunk-level，并支持两种优势函数计算粒度和三种对数概率计算粒度 [12][14] - 在PPO算法中，基于动作级（action-level）的价值估计优于基于块级（chunk-level）的估计，且部分重置（partial resets）可显著提升采样效率 [9][17] - 在GRPO算法中，轨迹长度归一化与动作掩码是稳定训练的关键，框架还设计了过滤机制，可加速策略收敛并提升模型性能 [9][25][29] - 对于PPO算法，框架采用了轻量化的Critic模型设计，与Actor策略共享大部分参数以减少GPU资源占用 [21] 性能表现 - 在ManiSkill的25个pick&place任务中，经过训练的模型成功率相较于基础模型提升幅度在45%至70%，其中PPO算法表现更稳定，OpenVLA-OFT模型达到97.66%的成功率 [31][35] - 在LIBERO所有的130个任务中，采用GRPO算法训练的单个OpenVLA-OFT模型成功率高达98.11%，在部分任务组中成功率超过99% [40] - 在训练数据分布外的泛化能力测试中，OpenVLA模型也表现出色，成功率优于对比基线 [34][35] - 真机实验表明，在Franka机械臂上部署的OpenVLA模型展现出零样本泛化能力，其任务成功率显著优于基于SFT训练的策略 [45][46]

没有导师指导，最快多久可以产出一篇具身领域相关论文？

具身智能之心· 2025-09-28 07:00

行业发展趋势 - VLA及其相关衍生方向在机器人与AI顶会中占据了近一半的具身产出 [1] - 长程操作、泛化、少样本、VLA+RL、人形相关是当前热门研究方向 [1] - 国内外具身智能领域处于蓬勃发展阶段 Unitree、智元、星海图、银河通用、逐际动力等团队从实验室走向商业化 [6] - 华为、京东、腾讯等科技巨头积极布局具身智能领域与国外Tesla、Figure AI等公司共同推动行业发展 [6] VLA技术特点与应用 - VLA模型通过语言指令和视觉信号直接生成机器人可执行动作打破了传统单任务训练的局限性 [7] - VLA使得机器人能够在多样化场景中自主决策灵活应对未见过的环境 [4] - 该技术广泛应用于制造业、物流和家庭服务等领域 [4] - VLA模型可应用于机械臂、四足机器人和人形机器人等多种平台为各类智能机器人发展提供广泛潜力 [4] 前沿研究项目 - VLA领域已推动多个前沿项目发展包括pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA [4][7] - 这些研究促进了学术界与工业界的合作 [4] - RT-2、OpenVLA和PI0等模型实现了从视觉输入和语言指令到机器人动作的端到端映射 [10] 技术演进路径 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆再到近期Diffusion Policy和多模态基础模型 [10] - 研究关注如何将大型语言模型推理能力与机器人控制系统结合实现从高级任务描述到低级运动规划的有效转换 [11] - PaLM-E、RT-X等模型通过多模态预训练和微调策略增强机器人在开放环境中的适应性和鲁棒性 [11] 核心研究挑战 - 具身智能面临的核心挑战包括跨域泛化、长期规划与世界模型构建 [11] - 前沿研究方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力 [11] - 领域未解决难点包括长期记忆、VLA+RL原子技能库构建、动作解码问题、多模态思维链等多个前沿方向 [16]

VLA的论文占据具身方向的近一半......

具身智能之心· 2025-09-18 04:00

VLA技术发展现状 - VLA及其相关衍生方向占据近一半的具身产出包括长程操作泛化少样本 VLA+RL 人形相关等领域[1] - VLA打破传统单任务局限使机器人能在多样化场景中自主决策灵活应对未见过环境广泛应用于制造业物流和家庭服务等领域[1] - 推动多个前沿项目发展包括pi0 RT-2 OpenVLA QUAR-VLA和HumanVLA 促进学术界与工业界合作[1] - 适应多种机器人平台包括机械臂四足机器人和人形机器人为智能机器人发展提供广泛潜力和实际应用价值[1] 产业生态布局 - 国内外具身智能领域处于蓬勃发展阶段 Unitree 智元星海图银河通用逐际动力等团队从实验室走向商业化[3] - 科技巨头积极布局包括华为京东腾讯等国内企业与国外Tesla Figure AI等公司共同推动领域发展[3] 科研培训体系 - 课程聚焦智能体通过感知-认知-行动循环与物理世界交互详细剖析VLA范式技术演进[7] - 涵盖从早期抓取位姿检测到行为克隆再到近期Diffusion Policy和多模态基础模型的技术发展路径[7] - 深入分析具身智能核心挑战包括跨域泛化长期规划与世界模型构建[8] - 研究如何将大型语言模型推理能力与机器人控制系统结合实现从高级任务描述到低级运动规划的有效转换[8] - 探讨PaLM-E RT-X等模型通过多模态预训练和微调策略增强机器人开放环境适应性和鲁棒性[8] - 关注前沿发展方向包括多模态感知融合触觉反馈整合基于物理的推理以及社会互动能力[8] 课程特色与产出 - 培养独立学术研究能力系统性梳理隐式端到端显式端到端分层端到端三大VLA模型体系[9] - 提供从理论到实践全链路培养包含仿真环境搭建实验设计与论文撰写全过程指导[10] - 传授学术研究方法论包括论文写作文献阅读创新点提炼等研究者必备技能[10] - 分析领域研究热点与未解决难点包括长期记忆 VLA+RL原子技能库构建动作解码问题多模态思维链等前沿方向[13] - 通过个性化研究指导帮助学生形成研究idea并完成初步实验掌握将研究成果转化为高质量学术论文的能力[10][13] - 课程最终产出包括论文初稿并使学生全面掌握具身智能VLA模型理论基础与技术演进路径[14] 技术要求 - 推理要求4090以上算力训练算力建议4卡4090（可租借）[15] - 需要一定pytorch和python基础能够自行修改代码[15]

Vision-Language-Action (VLA)

智能机器人

Vision-Language-Action (VLA)模型

Vision-Language-Action (VLA)

智能机器人

Vision-Language-Action (VLA)模型

卷VLA，提供一些参考方向......

具身智能之心· 2025-09-15 10:00

VLA模型技术价值 - VLA模型整合视觉信息、语言指令和行动决策，显著提升机器人对复杂环境的理解和适应能力 [1] - 该范式打破单任务训练局限，推动机器人向通用化、场景泛化方向发展 [1] - 能够实现从视觉输入和语言指令到机器人动作的端到端映射，应用于复杂任务规划和执行 [8] 产业应用与商业化进展 - 广泛应用于制造业、物流和家庭服务等领域，支持机械臂、四足机器人和人形机器人等多种平台 [3] - 国内外具身智能领域处于蓬勃发展阶段，Unitree、智元、星海图、银河通用、逐际动力等团队从实验室走向商业化 [5] - 华为、京东、腾讯等科技巨头与Tesla、Figure AI等国际公司共同推动领域发展 [5] 前沿研究项目 - 推动多个前沿项目发展包括pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA [3] - RT-2、OpenVLA和PI0等模型实现从视觉输入和语言指令到动作的端到端映射 [8] - PaLM-E、RT-X等模型通过多模态预训练和微调策略增强机器人环境适应性和鲁棒性 [9] 技术演进路径 - 技术演进涵盖从早期抓取位姿检测到行为克隆，再到近期Diffusion Policy和多模态基础模型 [8] - 关注多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力等前沿发展方向 [9] - 研究如何将大型语言模型推理能力与机器人控制系统结合，实现高级任务描述到低级运动规划的转换 [9] 核心研究挑战 - 面临跨域泛化、长期规划与世界模型构建等核心挑战 [9] - 未解决难点包括长期记忆、VLA+RL原子技能库构建、动作解码问题、多模态思维链等多个前沿方向 [15] - 突破"看得见但摸不着"、"只关注当下不能预测未来"等局限性，向通用机器人智能迈进 [9]

Vision-Language-Action (VLA)模型

智能机器人

Vision-Language-Action (VLA)模型

智能机器人

当老师给我指了VLA作为研究方向后......

具身智能之心· 2025-09-10 11:00

VLA技术范式与行业地位 - VLA是具身智能领域新范式直接从语言指令和视觉信号生成机器人可执行动作打破传统单任务训练局限推动机器人向更通用和场景泛化方向发展[1] - VLA将视觉信息语言指令和行动决策有效整合显著提升机器人对复杂环境的理解和适应能力在学术界和工业界具有重要性[1] - VLA模型已成为研究热点推动多个前沿项目发展包括pi0 RT-2 OpenVLA QUAR-VLA和HumanVLA 促进学术界与工业界合作[3] VLA应用场景与平台适应性 - VLA广泛应用于制造业物流和家庭服务等领域使机器人能在多样化场景中自主决策灵活应对未见过的环境[3] - VLA模型适应性体现在可应用于机械臂四足机器人和人形机器人等多种平台为各类智能机器人发展提供广泛潜力和实际应用价值[3] - VLA成为智能机器人领域关键驱动力[3] 具身智能产业发展格局 - 国内外具身智能领域处于蓬勃发展阶段 Unitree 智元星海图银河通用逐际动力等团队从实验室走向商业化[5] - 华为京东腾讯等科技巨头积极布局与国外Tesla Figure AI等公司共同推动领域发展[5] VLA技术演进与核心挑战 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆再到近期Diffusion Policy和多模态基础模型[8] - 前沿模型如RT-2 OpenVLA和PI0实现从视觉输入和语言指令到机器人动作的端到端映射应用于复杂任务规划和执行[8] - 具身智能面临核心挑战包括跨域泛化长期规划与世界模型构建需将大型语言模型推理能力与机器人控制系统结合[9] - PaLM-E RT-X等模型通过多模态预训练和微调策略增强机器人在开放环境中的适应性和鲁棒性[9] 前沿研究方向与突破重点 - 具身智能前沿发展方向包括多模态感知融合触觉反馈整合基于物理的推理以及社会互动能力[9] - 研究目标包括突破"看得见但摸不着" "只关注当下不能预测未来"等局限性向真正通用机器人智能迈进[9] - 未解决难点包括长期记忆 VLA+RL原子技能库构建动作解码问题多模态思维链等多个前沿方向[15]

Vision-Language-Action (VLA)模型

智能机器人

Vision-Language-Action (VLA)模型

智能机器人

机器人操控新范式：一篇VLA模型系统性综述 | Jinqiu Select

锦秋集· 2025-09-02 13:41

文章核心观点 - 基于大型视觉语言模型（VLM）的视觉-语言-动作（VLA）模型是机器人操控领域的变革性范式，通过语义理解和推理能力显著提升机器人在非结构化环境中的泛化执行能力 [1][4][5] - 哈尔滨工业大学（深圳）团队首次提出系统性分类法，将VLA模型划分为单体模型（Monolithic Models）和层级模型（Hierarchical Models），以解决架构多样性和研究碎片化问题 [1][6][8] - VLA模型与强化学习、免训练优化、人类视频学习和世界模型等前沿技术结合，未来方向包括记忆机制、4D感知和多智能体协作等 [1][58][91] 背景与演进 - 传统机器人操控方法依赖预定义任务规范，在非结构化环境中泛化能力有限，而VLM通过海量图文预训练跨越视觉与语言的语义鸿沟 [4][9][11] - 现代VLM（如LLaVA1.5、Qwen-VL）采用三组件架构：视觉编码器、投影器和大型语言模型，统一处理多模态任务并支持高级推理能力 [9][10] - VLA模型将机器人动作处理为文本token，与语言输出联合训练，实现语义理解能力飞跃（如RT-2相比RT-1在未见过指令任务上成功率显著提升） [12][13] 单体模型（Monolithic Models） - 单系统架构（如RT系列、OpenVLA）统一处理视觉、语言和动作生成，通过自回归解码生成动作token，参数量达70亿级别 [14][17][18] - 双系统架构（如π0、CogACT）分离快速反应的动作专家与慢速推理的VLM骨干，通过级联或并行方式协作，推理速度提升3倍以上 [15][35][30] - 性能增强方向包括3D/4D感知（如SpatialVLA、TraceVLA）、多模态融合（触觉、音频）和推理优化（动态token剪枝、1-bit量化） [21][23][31] 层级模型（Hierarchical Models） - 规划器+策略架构明确解耦高层规划与底层执行，生成可解释中间输出（如关键点、程序代码），支持长时程任务 [43][44][53] - 仅规划器方法（如Chain-of-Modality）生成可执行程序或文本指令，而规划器+策略模型（如HiRobot）通过扩散策略执行原子命令 [44][49][53] - 基于关键点的方法（如HAMSTER、RoboPoint）预测交互区域或轨迹路点，结合优化器生成动作，在7个泛化轴向上成功率提升20% [45][51][80] 前沿领域结合 - 强化学习通过密集奖励信号（如VLA-RL的RPRM模型）和离线-在线混合训练（如ReWiND）解决长时任务稀疏奖励问题 [59][60][61] - 免训练方法（如FlashVLA、EfficientVLA）通过触发机制和token复用跳过冗余计算，实现最高5倍训练加速 [62][63][64] - 人类视频学习（如UniVLA、LAPA）对齐人类-机器人交互特征，世界模型集成（如WorldVLA）通过预测未来状态优化动作规划 [65][66][68] 模型特性 - 多模态融合通过共享嵌入空间实现视觉、语言和动作的token级对齐，支持深度、触觉等模态扩展（如PointVLA集成点云数据） [69][71][73] - 指令遵循能力支持语义锚定（如ChatVLA-2理解白板数学问题）和思维链推理（如CoT-VLA预测视觉子目标） [74][76][75] - 跨领域泛化能力显著，如DexVLA实现跨机器人形态技能迁移，π0.5在分布外数据上成功率超90% [78][79][80] 数据集与基准 - 真实世界数据集（如OXE）整合22个机器人平台超100万演示，覆盖500多种技能，但长尾分布数据仍不足 [82][83][84] - 仿真基准（如BEHAVIOR、ALFRED）支持多阶段语言指令任务，CALVIN提供无约束指令下的长时程行为学习 [85][86] - 人类行为数据集（如Ego4D、EPIC-Kitchens）提供829小时密集手部追踪视频，支持精细化操作学习 [87][88] 未来方向 - 需开发融合真实世界复杂性和长期任务评估的基准，包含子任务成功率和抗干扰性等指标 [91] - 技术突破重点包括4D感知（整合深度与时间演化）、移动操作（导航与抓取协同）和多智能体协作（共享世界模型） [93][94][96] - 模型效率优化需平衡计算资源与实时需求，通过动态token剪枝和硬件友好量化降低延迟 [98]

视觉-语言-动作（VLA）模型

大型视觉语言模型（VLM）

机器人操控

具身人工智能

免训练优化

视觉-语言-动作（VLA）模型

大型视觉语言模型（VLM）

机器人操控

具身人工智能

免训练优化

后端到端时代：我们必须寻找新的道路吗？

自动驾驶之心· 2025-09-01 23:32

行业技术发展趋势 - 2025年VLA（Vision-Language-Action）成为行业新焦点，但技术路径出现明显分歧，部分企业积极推广而部分头部团队选择回避 [1][5][6] - 相较于2023-2024年端到端技术达成行业共识的局面，VLA技术路线呈现"分歧中的探索"态势 [5][6] - 技术切换期被视为占领用户心智和证明研发优势的关键窗口 [4] 企业战略布局差异 - 理想汽车通过VLA巩固端到端技术红利带来的领先优势 [4] - 元戎启行借助VLA提升辅助驾驶系统性能上限 [4] - 小鹏汽车将具身智能领域积累的VLA技术迁移至辅助驾驶系统，并采用自研高算力芯片解决实时性问题 [4][22] - 华为ADS明确主张WA（World Model + Action）为自动驾驶终极方案，回避VLA路径 [5] - 蔚来在低速场景应用世界模型但对外宣传保持低调 [5] - 地平线否认其HSD系统属于VLA，坚持VA（Vision-Action）技术路线 [23] VLA技术原理与应用 - VLA通过视觉模块感知环境、语言模块表述任务、动作模块执行驾驶行为，实现感知-决策一体化 [9] - 技术优势在于结合端到端的性能与语言的可解释性，理想状态下可映射人类驾驶本能 [10] - Wayve的LINGO系列实现边驾驶边用自然语言解释决策，LINGO-2支持实时语言指令调整行为 [12] - OpenDriveVLA融合2D/3D视觉token与语言生成控制轨迹，在Nuscenes数据集取得最优结果 [14][16] - 谷歌Deepmind的RT系列将互联网视觉-语言知识迁移至机器人控制，提升泛化能力 [17][18] 技术挑战与局限性 - 自然语言存在模糊性与不完备性，例如"慢一点"等指令缺乏精确动作约束 [19] - 语言-动作不对称性问题导致监督学习存在噪声，语言主要在任务级别有效而非细粒度控制 [19] - 多模态Transformer推理开销巨大，OpenVLA模型约7B参数需15GB显存且运行频率仅6Hz，低于行业10Hz标准 [21] - 实际部署中多用于上层任务分配，轨迹输出仍由传统模型执行并需兜底机制 [23] 替代技术路径发展 - VA（Vision-Action）方案通过内隐世界模型实现环境状态向量化表示，华为与地平线采用此路径 [23] - 地平线HSD系统通过深度神经网络实现决策统一性，在不同场景下保持自适应行为 [25] - 采用平衡数据分布并筛选优化人类驾驶数据，使决策更符合直觉 [25] - 坚持模块最小化架构，屏蔽激光雷达输入以避免感知依赖，保持系统简洁性与可维护性 [28] - 纯视觉版本结合软硬件一体方案具备成本优势 [31] 行业本质问题与未来方向 - 辅助驾驶核心问题仍是缺乏对世界的深度理解能力 [33] - 语言作为新输入维度类似激光雷达，提供抽象能力但非终极解决方案 [33] - 行业面临选择新道路或深化现有路径的战略抉择，不同技术路线均存在发展机会 [34]

多模态模型

多模态模型