CogVLA

搜索文档
NeurIPS 2025 | 人类认知对齐的CogVLA,突破VLA效率与性能瓶颈
具身智能之心· 2025-09-19 05:43
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Wei Li等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 本篇论文的工作已被 NeurIPS(Conference on Neural Information Processing Systems)2025 接收。 背景:从大模型到具身智能,面临效率困境与语义退化 视觉-语言-动作(VLA)研究在强大的预训练 VLM 所提供的丰富视觉与语言表征推动下,正快速发展。然而,将 VLM 输出的高维多模态特征对齐至连续动作空 间仍然计算开销巨大,限制了其大规模部署和实际应用。同时,现有的 VLA 加速方法往往忽视了跨越感知、语言对齐与动作解码的语义耦合,造成严重的跨模态 语义退化。 核心挑战:冗余感知与跨模态语义脱节 现有效率优化策略(如层跳过、早期退出)主要聚焦于 VLA 所使用的大语言模型内部的计算优化,忽视了视觉、语言与动作之间的语义耦合。这导致三个问题: 1. 感知冗余 :压缩后的 ...