具身智能(AGI)
搜索文档
阿里新研究:统一了VLA和世界模型
自动驾驶之心· 2025-11-06 08:43
WorldVLA模型框架概述 - 提出WorldVLA统一框架,融合视觉语言动作模型与世界模型,旨在让AI理解世界 [1] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出 [1] - 实验结果表明,WorldVLA表现显著优于独立的动作模型与世界模型,体现二者相互增强效应 [2] 技术架构与实现细节 - 基于Chameleon模型初始化,使用三套独立分词器对图像、文本和动作进行编码 [8] - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192 [8] - 对于256×256图像生成256个token,对于512×512图像生成1024个token [8] - 动作分词器将连续机器人动作每个维度离散化为256个区间,动作由7个token表示 [8] - 提出针对动作生成的替代注意力掩码,使自回归框架能并行生成多个动作 [11][12] 模型性能评估 - 在无预训练情况下,WorldVLA(256×256)平均成功率为79.1%,优于OpenVLA的76.5% [19][21] - WorldVLA(512×512)平均成功率提升至81.8%,显示模型性能与图像分辨率呈正相关 [21][22][23] - 引入世界模型后,动作模型平均成功率从62.8%提升至78.1% [25][26] - 在视频生成质量上,WorldVLA在50帧序列的FVD指标为674.1,优于纯世界模型的718.6 [32] 技术优势与应用前景 - 世界模型通过预测未来图像学习环境物理规律,提升动作生成准确性 [5][25] - 动作模型基于图像观测生成后续动作,反向促进世界模型视觉生成能力 [5][17] - 框架结合VLA抽象思考与世界模型物理感知,被视为通往具身智能的路径 [36][37]
阿里新研究:统一了VLA和世界模型
36氪· 2025-10-29 10:32
模型框架与核心创新 - 提出WorldVLA,一个将视觉语言动作模型与世界模型相融合的统一自回归动作世界模型框架 [1][4] - 该框架旨在解决VLA模型缺乏对动作的深度理解以及世界模型无法直接生成动作的功能局限 [4] - 模型使用三套独立的分词器对图像、文本和动作进行编码,所有模态信息被离散化为token并以自回归方式训练 [6][8] 技术实现细节 - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192,256×256图像生成256个token,512×512图像生成1024个token [6] - 动作分词器将连续机器人动作的每个维度离散化为256个区间,动作由7个token表示 [6] - 文本分词器词表大小为65536,包含8192个图像token和256个动作token [8] - 提出针对动作生成的替代注意力掩码,使当前动作生成仅依赖文本和视觉输入,可实现并行生成多个动作 [10] 性能表现与优势 - 在基准测试中,WorldVLA模型即使未经预训练,其性能也优于离散化OpenVLA模型 [12] - 512×512分辨率模型平均成功率(Average SR)达81.8%,优于256×256分辨率模型的79.1% [13] - 更高分辨率带来性能提升,归因于主干模型预训练策略及更多视觉细节信息,对高精度抓取任务尤为重要 [13][14] 模型协同效应 - 引入世界模型数据可增强动作生成能力,世界模型通过预测未来状态促使模型学习底层物理规律 [11][15] - 世界模型赋予系统前瞻推演能力,通过预判候选动作后果来优化动作选择策略,提高任务成功率 [16] - 动作模型能增强视觉理解能力,从而进一步支持世界模型的视觉生成,WorldVLA在生成长视频序列时质量显著优于纯世界模型 [11][21][22] 行业观点与应用前景 - 行业观点认为VLA与世界模型的结合是通往具身智能的答案,一个负责抽象思考,一个负责物理感知 [24] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出,体现了产学研结合的技术发展路径 [1][24]