视觉 - 语言 - 动作模型

搜索文档
元戎启行 发布全新辅助驾驶平台
深圳商报· 2025-08-27 07:05
产品发布 - 元戎启行在深圳发布全新一代辅助驾驶平台DeepRoute IO 2.0 [1] - 平台搭载自研VLA(视觉-语言-动作)模型 融合视觉感知、语义理解与动作决策三大核心能力 [1] - VLA模型对比传统端到端模型更擅长应对复杂路况 在安全性和舒适性方面呈现断代式突破 [1] 技术特性 - DeepRoute IO 2.0以"多模态+多芯片+多车型"适配为核心设计理念 支持激光雷达与纯视觉版本 [1] - 平台可面向多种主流乘用车平台开展定制化部署 [1] - VLA模型融合语言模型 具备强大思维链能力 能摆脱传统端到端模型的"黑盒"难题 [1] - 模型通过信息串联分析推理因果关系 天然集成海量知识库 泛化能力更强 [1] 商业进展 - 元戎启行获得超过10款车型的定点合作 已在量产商业化方面建立坚实基础 [1]
VLA+RL还是纯强化?从200多篇工作中看强化学习的发展路线
具身智能之心· 2025-08-18 00:07
视觉强化学习综述 核心观点 - 该综述对视觉强化学习(VRL)领域进行系统性梳理,整合200+篇研究成果,提出四大主题支柱:多模态大型语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,并分析算法设计、奖励工程及评估协议 [5] - 强调强化学习在视觉任务中的关键作用,包括跨模态对齐、长序列优化及可验证奖励设计,同时指出开放挑战如推理效率、长视野信用分配等 [47] 研究框架 强化学习范式 - **RLHF(基于人类反馈的强化学习)**:通过三元组偏好数据训练奖励模型,结合PPO优化策略,三阶段流程(监督预训练→奖励建模→策略优化)成为主流 [10] - **DPO(直接偏好优化)**:绕过奖励建模环节,直接通过封闭式监督目标优化策略,降低计算成本 [11] - **RLVR(带可验证奖励的强化学习)**:用确定性验证信号(如代码测试结果)替代人类偏好,提升客观性 [12] 策略优化算法 - **PPO(近端策略优化)**:通过重要性采样和广义优势估计实现稳定策略更新,依赖精确奖励模型 [15] - **GRPO(群体相对策略优化)**:利用群体归一化优势信号替代价值网络,降低内存消耗并提升训练稳定性 [16] 应用领域 多模态大型语言模型 - **传统方法**:通过GRPO/PPO将视觉-语言模型与可验证奖励对齐,如RePIC、GoalLadder等 [17] - **空间感知**:2D任务(目标检测、分割)和3D任务(布局推理)均采用规则驱动奖励和KL正则化微调 [18] - **视频推理**:分层奖励设计(如VQ-Insight)和时间衰减回报(如TW-GRPO)解决长序列挑战 [20] 视觉生成 - **图像生成**:DiffPPO等结合扩散模型与感知奖励(如ImageReward),提升生成质量 [21] - **3D生成**:DreamCS等通过渲染-比较循环优化几何结构,强化学习实现标准方法难以达到的保真度 [24] 视觉-语言-动作模型 - **GUI自动化**:规则驱动奖励(如GUI-R1)和群体归一化更新(如UIShift)推动跨平台交互 [28] - **视觉导航**:OctoNav-R1等结合第一人称视觉与低级动作控制,通过混合强化学习管道提升泛化性 [29] 评估体系 - **多模态模型**:结合外部基准(如MME)、人类偏好奖励和KL散度监控 [35] - **视觉生成**:FID/CLIP Score等传统指标与去噪轨迹诊断结合 [36] - **GUI任务**:在线成功率与逐步奖励设计(如Mind2web)平衡稀疏信号问题 [39] 未来方向 - **自适应推理**:通过终止评论者动态平衡深度与效率 [43] - **长视野优化**:子目标发现与对比视觉-语言评论者缓解稀疏奖励问题 [44] - **奖励模型设计**:需开发抗攻击、跨模态且用户可定制的综合奖励函数 [46]
视觉强化学习最新综述:全领域梳理(新加坡国立&浙大&港中文)
自动驾驶之心· 2025-08-16 00:03
研究背景与综述定位 - 视觉强化学习(Visual RL)的爆发源于强化学习在大语言模型(LLM)中的成功迁移,特别是RLHF(人类反馈强化学习)显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战:复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱(多模态LLM/视觉生成/统一模型/VLA模型)、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程(MDP),将文本/图像/视频生成统一为episodic MDP框架,状态包含用户prompt和已生成动作序列[15] - 三大对齐范式:RLHF(三阶段流程:SFT→奖励模型→PPO优化)、DPO(直接优化偏好数据)、RLVR(可验证奖励替代主观偏好)[18][19][20] - 策略优化算法PPO(带价值网络与KL惩罚)和GRPO(组相对优势+移除价值网络)分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域 多模态大语言模型(MLLM) - 常规RL驱动型MLLM使用可验证奖励(如精确匹配/IoU)优化VLM骨干,代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D(Omni-R1双系统GRPO优化情感识别)和3D(MetaSpatial用渲染深度奖励优化AR场景生成)[34] - 图像推理分为"基于图像思考"(SVQA-R1用视图一致性奖励)和"用图像思考"(GRIT优化答案正确性+框精度)[35] 视觉生成 - 图像生成三大奖励范式:人类中心偏好优化(ImageReward)、多模态推理对齐(UnifiedReward)、Metric驱动优化(DDPO最小化FID)[37][40] - 视频生成通过偏好模型优化(InstructVideo)、组相对优化(DanceGRPO)、领域特定奖励(Phys-AR惩罚物理定律违反)提升时序一致性[41] - 3D生成采用RL优化文本-网格生成(DreamCS融合轮廓IoU与CLIP对齐)、交互式编辑(Nabla-R2D3用实时渲染验证奖励)[41] 视觉-语言-动作模型(VLA) - GUI自动化分桌面(GUI-R1映射点击成功为稠密奖励)和移动场景(AgentCPM-GUI压缩动作空间适配设备)[42] - 视觉导航采用端到端RL(VLN-R1时间衰减奖励处理轨迹)和仿真微调(Flare实现家居场景泛化)[45] - 机器人操纵通过任务接地奖励(TGRPO)、课程式RL(RLVLA提升重排成功率)优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级(FID/FVD)、样本级(人类偏好分数)、状态级(KL散度监控策略漂移)[46][48][49] - 开放挑战包括有效推理平衡(自适应周期策略)、VLA长周期RL(分层子目标发现)、视觉思考RL(混合动作空间设计)[50][51][52] - 奖励模型设计需融合低阶信号(几何一致性)与高阶偏好,并实现跨模态泛化与动态更新[53][56]
自动驾驶中常提的VLM是个啥?与VLA有什么区别?
自动驾驶之心· 2025-08-08 16:04
自动驾驶视觉语言模型(VLM)技术解析 核心观点 - VLM是融合视觉与语言处理能力的多模态AI系统,通过联合处理图像特征与文本信息实现场景深度理解与自然语言交互[6] - 在自动驾驶领域,VLM可识别交通标志文字、生成安全提示、支持语义问答,显著提升车辆环境感知与交互能力[12] - 与VLA相比,VLM侧重"视觉理解+语言表达",而VLA扩展至"感知-决策-执行"闭环,两者在架构与任务目标上存在本质差异[18] 技术实现路径 模型架构 - 采用视觉编码器(CNN/ViT)提取道路纹理、车辆轮廓等特征,语言模块(Transformer)处理语义关联,通过跨模态注意力机制实现图文对齐[8][9] - 训练分两阶段:预训练阶段使用互联网图文数据建立通用能力,微调阶段采用自动驾驶专属数据集(覆盖不同道路/天气/交通场景)[11] 应用功能 - 实时场景提示:识别施工标志/水坑等危险区域,生成"减速绕行"等自然语言提示并通过车载系统播报[12] - 交互式语义问答:结合图像与地图数据回答"最优车道选择""转向限制"等乘客语音询问[12] - 路牌文字识别:结构化输出"限高3.5米""禁止掉头"等交通标志信息至决策模块[12] 部署优化 - 采用边缘-云协同架构:云端完成模型训练/微调,车载单元部署轻量化推理模型(经剪枝/量化优化)实现毫秒级响应[14] - 数据标注需覆盖多光照/天气条件,标注内容包含物体框选与自然语言描述(如"左侧车道封闭需减速至60km/h")[14] 技术演进方向 - 融合雷达/LiDAR/V2X等多源数据提升环境感知全面性,整合实时交通法规/气象信息更新决策背景知识[16] - 通过模型集成/贝叶斯深度学习评估不确定性,低置信度时切换至传统传感器融合方案保障安全性[15] - 结合大语言模型(LLM)与大视觉模型(LVM)发展,推动多模态融合感知与交互能力升级[16]
模拟大脑功能分化!Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
具身智能之心· 2025-07-13 09:48
研究背景与挑战 - 机器人操作系统需依据传感器输入和语言指令生成精确控制信号,但大规模视觉-语言模型(VLMs)因参数庞大和推理速度慢,限制了高频控制任务的实用性[9] - 现有双系统结构(系统1快速执行/系统2深度推理)存在协同效率低下问题,系统1无法充分利用系统2的语义推理结果[9] 技术方案创新 - FiS-VLA通过将VLM末端Transformer层重构为系统1执行模块,实现快慢系统一体化设计,系统2低频处理2D图像/语言指令,系统1高频响应实时感知输入[11] - 采用异构模态输入设计:系统2接收语言指令与2D图像,系统1接收2D图像/机器人状态/3D点云信息[15] - 双系统协作采用1:4频率比,系统2每运行一次可为系统1后续H步动作生成提供约束[14] 架构与训练 - 基于Prismatic VLM架构,包含SigLIP+DINOv2视觉编码器、LLaMA2-7B语言模型(最后n层Transformer用于系统1)、轻量级3D tokenizer[13] - 系统1采用扩散建模增强动作生成能力,系统2保留自回归推理能力,联合优化训练使用86万条轨迹数据[15][16] 性能表现 - 仿真测试:RLBench任务平均成功率69%,显著优于CogACT(61%)与π0(55%),控制频率达21.9Hz(CogACT的2倍)[18][19] - 真机测试:Agilex与AlphaBot平台平均成功率分别达68%与74%,在"倒水"等高精度任务中优势显著[20] - 泛化能力:面对未见物体/复杂背景/光照变化时,FiS-VLA准确率下降幅度(19%-31%)远小于π0(27%-46%)[23][24] - 消融实验:共享2层Transformer时性能最佳,单步预测8个动作理论控制频率达117.7Hz[25] 应用前景 - 通过统一VLM嵌入执行模块实现推理与控制融合,具备高频(117.7Hz)/高精度/强泛化特性[29] - 未来引入动态调整共享结构与协同频率策略可进一步提升自适应性与鲁棒性[29]
首次!世界模型、动作模型融合,全自回归模型WorldVLA来了
机器之心· 2025-07-03 08:01
核心观点 - 阿里巴巴达摩院提出WorldVLA模型,首次将世界模型和动作模型融合到一个全自回归模型中,实现文本、图片、动作的统一理解和生成 [1][5] - WorldVLA通过双向增强机制,既提升动作生成的准确性,也增强图像预测的质量 [7] - 在LIBERO基准测试中,WorldVLA抓取成功率提升4%,视频生成质量FVD指标降低10% [8] 模型架构 - 使用三个独立编码器分别处理图像、文本和动作数据,不同模态token共享相同词表 [5] - 世界模型部分通过输入动作生成视觉表示,学习环境物理动态规律 [7] - 动作模型部分增强对视觉信息的理解,提升世界模型的图像生成准确性 [7] 技术创新 - 提出动作注意力掩码策略,解决自回归模型中动作生成误差累积问题 [7] - 该策略在动作分块生成任务中使抓取成功率提升4%到23% [8] - 在未预训练情况下,WorldVLA超越需要预训练的全自回归模型OpenVLA [17] 实验结果 - 在LIBERO基准测试中,256*256版本平均成功率79.1%,512*512版本提升至81.8% [18] - 消融实验显示加入世界模型可使动作模型平均成功率从62.8%提升至67.2% [19] - 采用注意力掩码策略后,动作模型平均成功率从54.0%大幅提升至76.6% [19] 应用展示 - 可根据指令完成对应动作 [20] - 能够根据当前帧图片和动作生成下一帧图片 [24]
自动驾驶中常提的VLA是个啥?
自动驾驶之心· 2025-06-18 13:37
核心观点 - VLA(视觉-语言-动作模型)通过端到端融合视觉感知、语言理解与动作决策,实现从环境观察到控制指令输出的闭环映射,提升自动驾驶系统的泛化能力与场景适应性[2] - VLA模型简化了传统自动驾驶模块化架构,通过统一神经网络学习最优控制策略,减少误差累积和规则设计复杂性[4] - 行业认为VLA将推动自动驾驶进入"端到端2.0"时代,成为下一代技术基石[15][16] 技术架构 - **视觉编码器**:采用CNN或Vision Transformer提取图像/点云特征,部分引入三维空间编码器增强场景理解[8][9] - **语言编码器**:接入预训练语言模型,理解自然语言指令(如"第二个红绿灯右转")和安全策略(如"行人出现时减速至5公里/小时以下")[11] - **跨模态融合层**:使用自注意力机制或图神经网络实现视觉与语言特征的对齐融合[11] - **动作解码器**:基于强化学习直接预测转向角度、加速度等连续控制信号[11] 行业应用 - DeepMind的RT-2模型展示了VLA在机器人控制的潜力[13] - 元戎启行推出"端到端2.0版本"VLA模型,CEO称其将推动城区智驾达到"好用"状态[13] - 智平方GOVLA模型在机器人领域实现全身协同与长程推理,为智能驾驶提供参考[13] 技术优势 - 场景泛化能力:通过大规模多模态数据学习,在复杂路口、弱光环境等场景表现更优[12] - 上下文推理:融入语言理解后可根据指令动态调整驾驶策略[12] - 系统简化:省去传统方案中的规则引擎和多阶段优化,提高数据利用效率[4][11] 发展挑战 - 可解释性不足:"黑盒子"特性导致边缘场景决策失误难以排查[13] - 数据需求:需构建覆盖多种交通场景的高保真仿真环境和海量训练数据[13] - 计算瓶颈:实时性优化难度高,商用化面临算力资源消耗大的问题[13] 未来方向 - 结合可解释性模块或Diffusion模型优化决策透明度与轨迹平滑性[15] - 与传统规则引擎或MPC组成混合架构提高安全冗余[15] - 扩展至车队协同、远程遥控及人机交互等场景[15]
空间具身通用操作模型!百万真实数据训练,预训练代码全开源 | 上海AI Lab/TeleAI/上科大等团队新作
量子位· 2025-03-05 04:21
核心观点 - SpatialVLA是一种通用机器人策略,通过探索对齐的空间表示,赋予视觉-语言-动作(VLA)模型3D空间智能,显著提升了在现实世界中的通用性和鲁棒性 [6][8] - 该模型在zero-shot泛化控制、新场景高效微调和空间理解能力评估中均取得最先进性能,尤其在复杂环境变化和跨机器人平台适应性方面表现突出 [10][12][17][20] - 模型采用Ego3D位置编码、自适应空间动作网格和空间嵌入适应三大关键技术,解决了机器人观察数据3D未对齐和动作特性多样化的核心挑战 [6][7] 通用操作策略面临的挑战 - 现有VLA模型局限于2D输入,缺乏鲁棒3D感知能力,难以应对单视角视差、光照变化和环境不一致等现实场景问题 [1][3] - 机器人观察数据因相机传感器和安装位置差异导致3D空间未校准,动作特性因自由度、控制器等差异而多样化,阻碍通用策略开发 [4][5] SpatialVLA模型架构 - 采用SigLIP视觉编码器提取2D语义特征,通过Ego3D位置编码融合3D空间上下文,消除对特定机器人相机校准的依赖 [6][7] - 将连续7D动作(ΔT,ΔR,G)离散化为3个空间动作token,通过自适应动作网格实现不同机器人动作与3D物理世界的对齐 [6][7] - 后期训练中通过高斯分布调整动作网格和空间嵌入,实现跨机器人平台的高效迁移 [6][7] 实验验证结果 Zero-shot泛化控制 - 在SimplerEnv Benchmark中,WidowX配置下整体成功率达34 4%(zero-shot)和42 7%(微调),"将茄子放入黄色篮子"任务微调后成功率100% [12][14] - 真实WidowX平台测试显示,在未见过的场景、物体和动态动作中平均成功率显著超越OpenVLA等基线 [15][16] 新场景高效微调 - 在Franka机械臂13个平台上,从基本操作到混合多任务均表现优异,验证了作为通用控制策略的多功能性 [17][18] - LIBERO Benchmark中取得78 1%最高平均成功率,在无state输入策略中排名第一 [19] 空间理解能力 - Franka任务1准确率73%,WidowX零样本任务2-4操作能力显著提升,LIBERO-Spatial任务成功率88 2% [20][21] - 相比Octo等基线策略(成功率<50%),3D信息集成使模型在空间布局变化中展现更强适应性和鲁棒性 [20] 技术实现与开源 - 项目已全面开源,提供Huggingface模型库、GitHub训练代码和项目主页,支持下载部署、预训练和高效微调 [22][23]