WorldVLA
搜索文档
走向融合统一的VLA和世界模型......
自动驾驶之心· 2025-12-23 09:29
文章核心观点 - 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型正呈现出明显的融合趋势,其终极目标一致,旨在构建具备类人认知与决策能力的驾驶大脑 [2][5] - 两大技术路线并非对立,而是高度互补,未来将通过深度融合塑造“既会思考,又会沟通”的终极驾驶大脑,形成“感知-推理-仿真-决策-解释”的增强闭环 [19][51] VLA技术概述 - VLA是一种“视觉-语言-行动”模型,其输入为摄像头画面和人类语言指令,输出为直接的驾驶动作或轨迹,实现了从感知、理解到行动生成的端到端映射 [8][9] - 其系统架构分为三层:输入端融合多模态感知信息;中间层由视觉编码器、语言处理器与动作解码器构成,进行统一推理与决策生成;输出端直接驱动车辆 [9][10] World Model技术概述 - 世界模型是一种生成式时空神经网络系统,旨在让自动驾驶车辆具备“在脑海中预演未来”的能力,通过内部仿真评估不同决策后果,从而做出更安全、前瞻的规划 [12] - 其系统架构同样分为三层:输入端为时序多模态传感器数据;核心层负责状态编码、记忆与生成式推演;输出端提供未来场景表征,为下游规划模块提供前瞻信息 [13][14] VLA与世界模型的区别与联系 - **主要区别**:目标上,VLA侧重人车交互与可解释的端到端驾驶,世界模型侧重构建预测与仿真系统;输入上,VLA包含显式语言指令,世界模型侧重时序观测;输出上,VLA输出直接动作或轨迹,世界模型输出未来场景状态;技术上,VLA利用大模型推理能力,世界模型依赖状态编码与生成式预测 [15] - **核心联系**:技术起源背景一致,均源于对传统模块化pipeline的反思;终极目标一致,均旨在赋予机器类人的认知与决策能力;都面临解决长尾场景的挑战;技术底层均重度依赖“预训练+微调”范式与Transformer等核心架构 [16][17][18][19] VLA与世界模型的融合路径与案例 - **架构级融合**:以世界模型作为核心的“预测与仿真”引擎,以VLA作为“交互与决策解释”层,二者协同工作 [22] - **训练数据互补**:利用世界模型生成大量逼真场景数据训练VLA,同时VLA产生的语言标注数据可提升世界模型的语义理解 [22] - **形成闭环智能**:VLA做出初步决策,世界模型进行快速“脑内推演”并评估风险,再将信息反馈给VLA进行调整或解释 [22] - **3D-VLA**:由东北大学、加州大学洛杉矶分校、麻省理工学院等机构于2024年3月提出,是一个能打通3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标状态,让模型学会“想象未来” [24][25] - **WorldVLA**:由阿里巴巴达摩院、浙江大学等机构于2025年6月提出,是一个将VLA与世界模型统一于单一框架的自回归动作世界模型,实现了动作与图像的联合理解与生成,在机器人操作基准测试中动作生成成功率超过同类模型约4% [28][29][31] - **IRL-VLA**:由清华大学AIR研究院、上海交通大学等机构于2025年8月提出,是一种基于逆强化学习奖励世界模型的闭环强化学习框架,用于训练端到端自动驾驶VLA策略,在NAVSIM v2闭环驾驶基准上取得领先性能 [34][35] - **DriveVLA-W0**:由中国科学院自动化研究所等机构于2025年10月提出,通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的问题,在NAVSIM基准测试中超越多传感器基线模型,并能放大数据扩展定律 [37][38][39][40] - **WM-MoE**:由麻省理工、夏威夷大学等机构于2025年10月提出,是一个基于世界模型并融合专家混合网络与大型语言模型的运动预测框架,旨在系统性解决自动驾驶中的极端案例难题,在多个公开数据集上展现出卓越的鲁棒性和泛化能力 [42][43][45] - **FutureSightDrive**:由西安交通大学、阿里巴巴达摩院等机构于2025年11月提出,其核心创新是引入视觉时空链式思考作为中间推理步骤,让VLA模型能够进行“视觉思考”,有效弥合了感知与规划之间的模态鸿沟 [47][49][50] 行业动态与展望 - 工业界已开始布局相关融合技术,例如华为强调其世界模型能力,小鹏汽车正在开发VLA 2.0,而理想汽车在发布会上也展示了相关理解,预计未来将有更多厂商入局 [51] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路推进 [51]
世界模型和VLA正在逐渐走向融合统一
自动驾驶之心· 2025-11-10 03:36
技术趋势:VLA与WM的融合 - 视觉语言模型VLA和世界模型WM正逐渐走向融合统一,而非互相排斥的技术路线[2] - 中科院与引望团队在10月份推出的DriveVLA-W0工作证明VLA与WM结合可行[2] - 小米陈龙老师公开讨论VLA+WM融合,认为语言预测和未来预测是具身智能都需要的能力[3] - 语言模型负责抽象推理,引入互联网海量知识,处理高级逻辑和常识推理[3] - 世界模型负责物理和运动规律,通过预测未来像素或状态,涌现语义理解、深度感知等低级能力[3] - 学术界已探索多种融合方案:VLA-RFT在WM中强化学习微调VLA、WorldVLA三模态统一模型、Unified Vision-Language-Action Model离散化三模态[3] - 未来L4级自动驾驶训练链路将是VLA、强化学习RL和WM三者结合,缺一不可[4] - Tesla在ICCV的分享预示国内厂商将陆续跟进VLA+WA结合的技术路线[6] 自动驾驶之心知识星球资源 - 社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人[9] - 目标在未来2年内达到近万人规模,打造交流与技术分享的聚集地[9] - 社区汇总近40个技术方向学习路线,包括VLA、端到端自动驾驶、世界模型、BEV感知等[11][14][23] - 提供近60个自动驾驶数据集资源,涵盖多模态大模型预训练、VLA微调、强化学习等专用数据集[11][41] - 社区成员来自上海交大、北京大学、CMU、清华大学等高校,以及蔚小理、华为、大疆、百度等近300家机构与企业[22] - 社区内部梳理了自动驾驶领域国内外知名高校实验室和公司资源,供学术深造和职业发展参考[33][35] - 提供与多家自动驾驶公司建立的岗位内推机制,帮助成员简历直达心仪企业[17] 技术学习体系与课程 - 社区原创直播课程覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划等核心模块[17] - 具体课程包括:自动驾驶数据工程系列涉及自动标注与4D标注、2D/3D目标跟踪系列、自动驾驶仿真系列、端到端及大模型技术专题等[17] - 针对小白用户提供全栈方向学习课程,涵盖数学基础、计算机视觉、深度学习、编程等入门资料[16] - 技术专题深度覆盖:3D目标检测环视与多模态方法、BEV感知量产方案、Occupancy网络、扩散模型与自动驾驶结合等[23][57][55][47] - 实战内容重点包括:模型压缩与部署优化、CUDA加速、TensorRT及毫米波雷达融合等工程化主题[16][74][76] - 定期举办行业大佬直播分享,目前已累计超过一百场专业技术直播,内容可回看[94]
阿里新研究:统一了VLA和世界模型
自动驾驶之心· 2025-11-06 08:43
WorldVLA模型框架概述 - 提出WorldVLA统一框架,融合视觉语言动作模型与世界模型,旨在让AI理解世界 [1] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出 [1] - 实验结果表明,WorldVLA表现显著优于独立的动作模型与世界模型,体现二者相互增强效应 [2] 技术架构与实现细节 - 基于Chameleon模型初始化,使用三套独立分词器对图像、文本和动作进行编码 [8] - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192 [8] - 对于256×256图像生成256个token,对于512×512图像生成1024个token [8] - 动作分词器将连续机器人动作每个维度离散化为256个区间,动作由7个token表示 [8] - 提出针对动作生成的替代注意力掩码,使自回归框架能并行生成多个动作 [11][12] 模型性能评估 - 在无预训练情况下,WorldVLA(256×256)平均成功率为79.1%,优于OpenVLA的76.5% [19][21] - WorldVLA(512×512)平均成功率提升至81.8%,显示模型性能与图像分辨率呈正相关 [21][22][23] - 引入世界模型后,动作模型平均成功率从62.8%提升至78.1% [25][26] - 在视频生成质量上,WorldVLA在50帧序列的FVD指标为674.1,优于纯世界模型的718.6 [32] 技术优势与应用前景 - 世界模型通过预测未来图像学习环境物理规律,提升动作生成准确性 [5][25] - 动作模型基于图像观测生成后续动作,反向促进世界模型视觉生成能力 [5][17] - 框架结合VLA抽象思考与世界模型物理感知,被视为通往具身智能的路径 [36][37]
阿里新研究:一统VLA和世界模型
具身智能之心· 2025-10-31 00:04
WorldVLA框架概述 - 核心创新是将视觉语言动作模型与世界模型融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出[2] - 该自回归动作世界模型通过结合动作与图像理解来预测未来图像,同时基于图像观测生成后续动作[5][6] - 实验结果显示其表现显著优于独立的动作模型与世界模型,体现二者相互增强效应[3] 技术架构设计 - 基于Chameleon模型初始化,采用三套独立分词器处理图像、文本和动作编码[9] - 图像分词器使用VQ-GAN模型,压缩比为16,码本大小8192:256×256图像生成256个token,512×512图像生成1024个token[9] - 动作分词器将连续机器人动作的每个维度离散化为256个区间,动作由7个token表示[9] - 创新设计替代注意力掩码,使动作生成仅依赖文本和视觉输入,屏蔽之前动作影响,实现并行生成多个动作[12][13] 性能基准测试 - 在离散动作模型对比中,WorldVLA(256×256)平均成功率79.1%,优于OpenVLA的76.5%[22] - 分辨率提升至512×512时性能进一步提高,平均成功率81.8%,显示分辨率与性能正相关[22] - 在连续动作模型对比中,WorldVLA未使用预训练即超越部分预训练模型,证明架构有效性[20][22] 世界模型对动作模型的增强 - 引入世界模型后动作模型成功率从62.8%提升至78.1%,特别是在长序列任务中从23.0%提升至52.4%[26][27] - 世界模型赋予系统前瞻推演能力,通过预判动作后果优化决策,案例显示能持续尝试直到操作成功[26][28] - 环境物理理解、动作风险评估和精确动作解析是三方面主要增强机制[15][16][17] 动作模型对世界模型的提升 - 在视频生成质量上,动作世界模型在50帧序列的FVD指标从718.6优化至674.1,PSNR从23.98提升至24.30[33] - 纯世界模型出现抽屉无法拉开、物体消失等缺陷,而动作世界模型生成连贯且符合物理规律的后续状态[33] - 动作模型通过增强视觉理解能力进一步支持世界模型的视觉生成[18] 行业专家观点 - 小米汽车高级研究总监陈龙认为VLA与世界模型可结合相互促进,分别负责"抽象思考"和"物理感知"[37] - VLA与世界模型结合被视为通往具身智能的重要路径[37]
阿里新研究:统一了VLA和世界模型
36氪· 2025-10-29 10:32
模型框架与核心创新 - 提出WorldVLA,一个将视觉语言动作模型与世界模型相融合的统一自回归动作世界模型框架 [1][4] - 该框架旨在解决VLA模型缺乏对动作的深度理解以及世界模型无法直接生成动作的功能局限 [4] - 模型使用三套独立的分词器对图像、文本和动作进行编码,所有模态信息被离散化为token并以自回归方式训练 [6][8] 技术实现细节 - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192,256×256图像生成256个token,512×512图像生成1024个token [6] - 动作分词器将连续机器人动作的每个维度离散化为256个区间,动作由7个token表示 [6] - 文本分词器词表大小为65536,包含8192个图像token和256个动作token [8] - 提出针对动作生成的替代注意力掩码,使当前动作生成仅依赖文本和视觉输入,可实现并行生成多个动作 [10] 性能表现与优势 - 在基准测试中,WorldVLA模型即使未经预训练,其性能也优于离散化OpenVLA模型 [12] - 512×512分辨率模型平均成功率(Average SR)达81.8%,优于256×256分辨率模型的79.1% [13] - 更高分辨率带来性能提升,归因于主干模型预训练策略及更多视觉细节信息,对高精度抓取任务尤为重要 [13][14] 模型协同效应 - 引入世界模型数据可增强动作生成能力,世界模型通过预测未来状态促使模型学习底层物理规律 [11][15] - 世界模型赋予系统前瞻推演能力,通过预判候选动作后果来优化动作选择策略,提高任务成功率 [16] - 动作模型能增强视觉理解能力,从而进一步支持世界模型的视觉生成,WorldVLA在生成长视频序列时质量显著优于纯世界模型 [11][21][22] 行业观点与应用前景 - 行业观点认为VLA与世界模型的结合是通往具身智能的答案,一个负责抽象思考,一个负责物理感知 [24] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出,体现了产学研结合的技术发展路径 [1][24]
阿里新研究:统一了VLA和世界模型
量子位· 2025-10-29 09:30
技术框架与核心创新 - 提出WorldVLA,一个将视觉语言动作模型与世界模型相融合的统一自回归动作世界模型框架 [1][4] - 框架旨在解决VLA模型仅将动作作为输出而缺乏深度理解,以及世界模型无法直接生成动作的应用局限 [6] - 采用三套独立分词器对图像、文本和动作进行编码,图像分词器压缩比为16,码本大小为8192,256x256图像生成256个token,512x512图像生成1024个token [8] - 创新性地为动作生成设计了替代注意力掩码,使自回归框架能并行生成多个动作,避免早期错误传递 [11][12] 性能优势与实验结果 - 实验结果表明WorldVLA表现显著优于独立的动作模型与世界模型,体现了二者相互增强效应 [2] - 在未使用预训练的情况下,WorldVLA在基准测试中平均成功率优于离散化OpenVLA模型(256x256分辨率79.1% vs 76.5%,512x512分辨率81.8% vs 76.5%) [19][21] - 模型性能与图像分辨率呈正相关,512x512分辨率相比256x256分辨率带来显著提升(平均成功率从79.1%提升至81.8%) [21][22] - 引入世界模型数据训练后,动作模型在目标、物体、空间和长序列任务上的成功率从基线62.8%提升至78.1% [25] 协同效应与能力增强 - 世界模型通过预测未来图像学习环境物理规律,增强动作模型在精细操作任务中的能力 [14][25] - 动作模型通过增强视觉理解能力,反向支持世界模型的视觉生成质量,在生成50帧长视频时FVD指标从718.6改善至674.1 [17][31][32] - 动作世界模型在复杂场景生成中表现优于纯世界模型,能生成连贯且符合物理规律的后续状态 [32]
VLA和World Model世界模型,哪种自动驾驶路线会胜出?
自动驾驶之心· 2025-09-04 23:33
自动驾驶技术路线对比 - 目前95%以上的世界模型用于生成视频以训练自动驾驶系统而非直接控制车辆 VLA技术已实现量产上车[3] - VLA本质属于模仿学习 依赖语言作为中间转换层 世界模型则采用类脑学习机制 跳过语言层直接输出动作 实现真正端到端控制[3] - 世界模型基于抽象层级理解与预测物理现实 具备因果推理和零样本学习能力 无需标注数据即可学习[4] 技术理论框架演进 - 世界模型理论可追溯至1994年 核心架构包含Vision Model、Memory RNN和Controller三大模块 采用VAE进行视觉特征提取[11] - 2019年演进为RSSM架构 结合确定性与随机性组件 在防止模型随意发挥的同时提升容错性[13][15] - 2023年提出JEPA架构 通过自我监督学习预测抽象状态而非像素细节 大幅降低计算需求 V-JEPA2于2025年6月发布[17] 模型训练与数据特性 - V-JEPA2预训练使用超100万小时无标注网络视频 仅用62小时机器人影片进行微调即可实现零样本任务执行[19] - 世界模型优势在于非逐像素计算降低运算资源需求 且训练完全无需标注数据 可直接利用网络资源[19] - 极端场景数据稀缺问题可通过虚拟仿真生成补充样本 结合域适应技术减少模拟到真实的性能差距[19] 技术瓶颈与挑战 - 传感器信息局限导致物理世界表达不完整 当前摄像头与激光雷达无法模拟人眼事件相机式的高效信息捕捉机制[20] - 表征崩溃现象使模型生成无意义向量 需通过正则化技术控制模型复杂度 但会限制因果关系学习能力[21] - 长期预测存在误差累积问题 多步预测可能导致严重偏离 需采用半监督与教师强制策略结合进行校正[21] - 世界模型缺乏可解释性 决策异常难以溯源 且易受对抗攻击影响 存在安全性隐患[22] 融合发展趋势 - VLA可通过强化学习微调吸收世界模型优点 典型案例如博世IRL-VLA采用逆向强化学习奖励世界模型[22] - 地平线SENNA VLA基于META小羊驼模型 阿里达摩院WorldVLA均体现VLA与世界模型相互增强的趋势[27][28] - 行业判断结合世界模型增强的VLA将成为主流技术路线 纯世界模型因可解释性等问题难以单独量产应用[30]
FlowVLA:破解 VLA 模型 “物理失真” 难题,机器人世界建模再升级
具身智能之心· 2025-08-29 00:03
核心观点 - FlowVLA模型通过视觉思维链(Visual CoT)原则解决传统VLA世界模型的根本缺陷,将动态运动与静态外观解耦,显著提升长时程预测的物理合理性和下游任务样本效率 [1][8][36] - 模型在单自回归Transformer中统一外观与运动推理,采用"帧→光流→帧"的两阶段结构化预测流程,避免像素复制陷阱并增强物理动态理解 [9][12][14] - 实验验证显示,FlowVLA在LIBERO和SimplerEnv基准测试中达到最先进性能,长时程任务成功率提升显著,低数据场景下样本效率优势达55% [20][22][30] 技术架构创新 - 引入视觉思维链(Visual CoT)原则,强制模型先预测中间光流编码运动动态,再基于光流生成未来帧,实现动态与外观学习的解耦 [8][12][14] - 采用共享分词方案,将2通道光流场转换为RGB类图像,通过相同VQ-GAN分词器处理光流与原始帧,保持参数效率和架构简洁性 [9][15] - 两阶段训练范式:预训练阶段从无动作视频学习通用物理规律,微调阶段适配机器人控制任务,损失函数仅针对动作令牌计算 [15][16][19] 性能表现 - LIBERO数据集平均成功率88.1%,超越所有对比模型,其中长时程任务成功率72.6%较基线提升显著 [20][21] - SimplerEnv数据集平均成功率74.0%,在视觉偏移场景(如堆叠积木任务62.5%)表现优异,验证对真实环境变化的强适应性 [22][23] - 低数据场景下峰值成功率比基线高55%,仅用1000训练步数即超越基线峰值性能,样本效率优势显著 [30][32] 关键组件验证 - 消融实验显示:移除Visual CoT结构使成功率下降至64.0%,移除光流监督降至69.5%,证明核心设计必要性 [33][34] - 定性分析表明FlowVLA预测结果符合物理规律(无机械臂消失或物体运动异常),且与语言指令语义对齐 [24][26][29] - 统一分词方案和交错序列格式贡献49.4%基础性能,分组序列结构对整体效果有关键影响 [33][34] 行业价值定位 - 突破传统VLA模型端到端学习局限,提供动态优先的世界模型构建范式,为通用机器人开发奠定物理推理基础 [35][36] - 解决预训练被动观测知识与策略学习主动控制知识的领域差距,显著降低下游任务微调成本和收敛时间 [7][10][30] - 光流预测提供任务无关的低层物理理解,可作为高层控制基础,弥补现有具身推理方法在物理动态建模方面的不足 [35][36]
首次!世界模型、动作模型融合,全自回归模型WorldVLA来了
机器之心· 2025-07-03 08:01
核心观点 - 阿里巴巴达摩院提出WorldVLA模型,首次将世界模型和动作模型融合到一个全自回归模型中,实现文本、图片、动作的统一理解和生成 [1][5] - WorldVLA通过双向增强机制,既提升动作生成的准确性,也增强图像预测的质量 [7] - 在LIBERO基准测试中,WorldVLA抓取成功率提升4%,视频生成质量FVD指标降低10% [8] 模型架构 - 使用三个独立编码器分别处理图像、文本和动作数据,不同模态token共享相同词表 [5] - 世界模型部分通过输入动作生成视觉表示,学习环境物理动态规律 [7] - 动作模型部分增强对视觉信息的理解,提升世界模型的图像生成准确性 [7] 技术创新 - 提出动作注意力掩码策略,解决自回归模型中动作生成误差累积问题 [7] - 该策略在动作分块生成任务中使抓取成功率提升4%到23% [8] - 在未预训练情况下,WorldVLA超越需要预训练的全自回归模型OpenVLA [17] 实验结果 - 在LIBERO基准测试中,256*256版本平均成功率79.1%,512*512版本提升至81.8% [18] - 消融实验显示加入世界模型可使动作模型平均成功率从62.8%提升至67.2% [19] - 采用注意力掩码策略后,动作模型平均成功率从54.0%大幅提升至76.6% [19] 应用展示 - 可根据指令完成对应动作 [20] - 能够根据当前帧图片和动作生成下一帧图片 [24]
WorldVLA:世界模型实现视觉-动作双向增强,抓取精度显著提升
自动驾驶之心· 2025-07-01 04:04
WorldVLA功能与定义 - WorldVLA是一种将视觉-语言-动作(VLA)模型与世界模型结合的自回归动作世界模型,通过集成动作生成与图像理解预测未来状态,学习环境物理规律以优化动作生成[4] - 模型采用注意力掩码策略解决自回归动作生成中的误差传播问题,在动作块生成任务中抓取成功率提升4%-23%[4][8] - 实验显示WorldVLA抓取成功率比独立动作模型高4%,视频生成能力优于普通世界模型,Fréchet视频距离降低10%[8] VLA模型与行业技术瓶颈 - 当前VLA模型依赖多模态大语言模型(MLLM)生成动作,但动作仅作为输出未被深度集成分析,缺乏对动作动态的理解[6] - 世界模型虽能预测未来视觉状态,但无法直接生成动作输出,限制其在需显式动作规划场景的应用[6] - 行业需解决动作泛化能力不足问题,基础MLLM在动作领域表现弱于图像文本领域[19] 模型架构与技术方案 - 采用三模态tokenizer(图像/文本/动作)共享词汇表,图像tokenizer压缩比16,codebook大小8192,256×256图像生成256个token[15] - 动作表示为7个token(3位置+3角度+1抓取器状态),文本tokenizer词汇量65,536含8192图像token和256动作token[15] - 训练策略混合动作模型数据(交叉熵损失)与世界模型数据(α=0.04平衡损失),实现双向增强[16][22] 实验验证与性能表现 - 在LIBERO基准测试中,512×512分辨率模型平均抓取成功率87.8%,超越离散对比模型(79.1%)[27][28] - 世界模型组件使动作模型成功率从62.8%提升至78.1%,动作模型帮助世界模型降低长视频生成FVD指标[29][30][36] - 两帧历史图像输入为最优配置,平衡计算效率与任务成功率(76.6% vs 单帧54.0%)[33] 创新方法与行业价值 - 首创自回归动作世界模型统一框架,实现动作预测与世界状态预测的联合优化[9][12] - 注意力掩码机制突破传统自回归限制,使动作生成独立依赖视觉输入而非历史动作,缓解误差累积[19][20] - 技术方案为机器人灵巧操作提供新范式,预训练世界模型可增强特定任务性能[34][36]