Workflow
语义世界模型(SWM)
icon
搜索文档
世界模型==VQA?机器人不用想象画面,预测语义就够了
机器之心· 2025-10-28 00:41
文章核心观点 - 研究提出了一种新型的语义世界模型,该模型不再专注于预测未来的精确像素画面,而是通过回答关于未来结果的语义问题来支持决策规划 [1][8][9] - 该方法将世界建模问题重新定义为一个关于未来结果的视觉问答问题,利用视觉语言模型的强大能力,实现了更灵活、可扩展的机器人控制 [8][9][18] 模型原理与架构 - 语义世界模型以动作条件的视觉语言模型形式存在,输入包括当前观测图像、拟执行的动作序列以及一个关于未来的自然语言问题,输出为相应的文本回答 [11][20][24] - 模型基于开源的30亿参数视觉语言模型PaliGemma构建,包含Transformer自回归语言模型、SigLIP图像编码器和投影矩阵等核心组件 [24] - 通过引入新的投影矩阵将单个动作映射到语言模型的潜空间,使模型能够以动作为条件回答问题 [24][25] - 模型通过优化标准交叉熵损失进行端到端微调,在语言空间中捕捉环境动态,无需显式生成像素级表征 [26][27] 训练方法与数据 - SWM可在对通用序列数据质量要求极低的情况下训练,训练数据可从任何专家或非专家数据语料库中获取,格式为当前观测结果、行动、关于未来的问题及预期答案 [15] - 训练使用状态-动作-问题-答案数据集,混入次优数据比仅使用专家数据进行训练能提高准确率,结合使用专家和次优数据时在LangTable和OGBench上的准确率分别达到92.92%和96.86% [22][35][36] 实验性能与效果 - 在LangTable和OGBench仿真环境上的评估表明,SWM能够准确回答关于未来结果的问题,并能泛化到新场景中 [17] - 基于SWM的规划方法在LangTable上相比基础策略的平均性能从14.4%提升至81.6%;在OGBench上从45.33%提升至76%,在所有任务上均优于AVD和IDQL基线 [31] - 在处理多步长程任务时,SWM的平均策略改进幅度达52.0%,优于AVD基线 [33][34] - 模型展现出组合泛化能力,在引入新物体或修改颜色-形状组合的条件下,与基础策略相比平均性能提高20.0% [39][40] 模型优势与特性 - SWM继承了基础VLM的泛化能力,能够正确关注图像中与任务相关的位置,即使从未在涉及两个以上物体的问题上微调,也能正确关注三个物体 [41] - 该方法与零阶基于采样的方法以及一阶梯度规划方法都兼容,规划方法在计算上可行,相比常规动作选择方法能在测试时带来显著改进 [16][29][31]