Workflow
π₀
icon
搜索文档
基于大型VLM的VLA模型如何改一步一步推动机器人操作任务的发展?
具身智能之心· 2025-08-26 00:03
文章核心观点 - 大型视觉语言模型VLM正推动机器人操作从预定义任务向开放世界自主执行转变 通过视觉语言动作VLA模型整合感知 语言理解和动作生成 使机器人能理解自然语言指令并在动态环境中执行复杂任务[3][4][16] - 哈尔滨工业大学深圳团队发布首篇系统综述 提出VLA模型的单体与分层二元分类体系 梳理技术发展 核心特征及数据集 并指出未来研究方向如记忆机制和3D4D感知升级[5][9][10][74] VLA模型架构分类 - 单体模型整合感知 语言理解和动作生成于单一或双系统架构 无显式中间表示 包括单系统模型统一输入并自回归解码输出动作 以及双系统模型分离高层推理与低层动作生成以平衡精度与实时性[19][20][30] - 分层模型显式分离规划与执行 通过人类可解释中间表示如子任务 关键点或程序连接规划器与策略器 分为仅规划器生成中间表示依赖现成策略器 以及规划器加策略器端到端优化规划与执行[19][21][41][48] 单体模型技术进展 - 经典自回归解码范式将连续动作离散化为token序列 VLM自回归生成后解令牌为可执行动作 如RT-2以PaLM-E/PaLI-X为骨干训练互联网与机器人数据 将动作视为语言任务提升语义理解与泛化性[23][24] - 模型性能增强通过扩展感知模态如3D点云 4D时空线索和触觉听觉 提升推理能力如引入思维链和分层闭环控制 以及优化泛化性如统一动作空间和可逆训练 代表技术包括Leo Agent处理点云和CoT-VLA预测子目标[25][26] - 推理效率优化从架构 参数和解码策略三方面降低开销 如RoboMamba采用Mamba架构达Transformer三倍速度 BitVLA用1-bit权重压缩模型 以及PD-VLA并行解码加速动作生成[28][29] 分层模型技术进展 - 仅规划器方法生成程序 关键点或子任务等中间表示 依赖现成策略器执行 如基于程序的Chain-of-Modality生成Python代码控制机器人 基于关键点的MoManipVLA预测路点优化轨迹 以及基于子任务的PaLM-E统一VQA与指令生成[42][43][45][47] - 规划器加策略器端到端优化规划与执行 基于关键点方法如HAMSTER预测轨迹关键点指导策略 基于子任务方法如HiRobot分解开放指令为原子命令后执行 代表技术还有DexVLA结合VLM规划器与扩散策略器处理长程任务[49][50][51][52] 其他先进技术领域 - 基于强化学习方法通过在线交互或离线轨迹优化VLA策略 解决奖励稀疏和样本效率问题 如VLA-RL训练过程奖励模型 ReWiND以目标进度为奖励 以及ConRFT结合离线与在线训练[54][55][63] - 无训练方法通过架构或计算优化提升效率 如FlashVLA稳定场景跳过解码 EfficientVLA剪枝冗余语言层和过滤视觉令牌 以及PD-VLA并行不动点迭代加速[56][57][58] - 从人类视频学习利用人类与机器人交互结构相似性迁移任务知识 如UniVLA从无标注视频学习任务中心潜在动作 LAPA用VQ-VAE量化动作预训练 以及3D-VLA融合视频提升3D推理[59][60] - 基于世界模型整合预测环境动态的紧凑表示 通过模拟未来状态优化动作规划 如WorldVLA联合预测视觉结果与生成动作 World4Omni生成子目标图像指导策略 以及V-JEPA 2-AC通过模拟潜在状态做规划[61][62] 核心特征与能力 - 多模态融合通过共享嵌入空间减少语义偏移 令牌级整合捕捉跨模态依赖 以及全面模态兼容性无缝整合点云 触觉和音频等新模态 代表技术包括PointVLA加入点云编码器和VTLA融合触觉输入[64] - 指令遵循依托语义理解与推理实现灵活响应 包括语义指令定位动态解读模糊指令 任务分解与协作拆分子目标 以及思维链推理预测未来视觉状态提升可靠性 如ChatVLA-2理解白板数学问题[65] - 多维度泛化实现跨任务 跨领域和跨载体适配 如DexVLA无需调优完成多样操作 π₀通过异构数据联合训练在家庭环境成功率超90% 以及HAMSTER在七个泛化维度成功率比OpenVLA高20%[65] 数据集与基准测试 - 真实世界数据集捕捉环境复杂性支持语言与动作对齐 如OXE整合22个机器人平台的100万+多模态演示 RH20T支持147项任务单样本学习 以及DROID含564项自然场景远程操作演示[66][67] - 模拟数据集提供可扩展安全训练环境 如BEHAVIOR支持杂乱家庭环境多步骤控制 CALVIN支持无约束语言指令长期操作 以及SIMPLER通过校准环境减少模拟到现实差距[67][68] - 人类行为数据集提供语义丰富交互先验 如Ego4D含3000小时第一视角视频 EPIC-Kitchens提供细粒度烹饪任务视频 以及EgoDex含829小时3D手部追踪视频[68][69] - 具身数据集聚焦规划与推理能力评估 如OpenEQA评估功能与常识推理 LoTa-Bench验证LLM生成规划可执行性 以及MT-EQA支持多目标推理[69][70] 未来研究方向 - 需优化数据集与基准测试 结合大规模真实数据采集与复杂任务套件 引入多维度评估指标解决现实差距与任务单一问题 并开发记忆机制与长期规划转向目标驱动连贯动作[74][75] - 技术升级包括3D与4D感知整合深度与时间动态信息 移动操作整合自适应策略 多智能体协作构建共享世界模型 开放世界终身学习设计增量知识积累 以及模型效率提升通过动态令牌修剪和量化[75]
Physical Intelligence 核心技术团队分享:物理世界的“Vibe Coding”如何实现?
海外独角兽· 2025-08-23 12:04
技术演进路径 - VLA是VLM在机器人领域的应用 能够接收图像和文本输入并整合机器人状态信息 直接输出控制机器人的动作指令 与文本生成模型存在本质差异[6][12] - VLM在LLM基础上拓展视觉感知能力 能处理纯文本输入和涉及视觉内容的复杂信息 训练流程已较完善[7] - VLA发展路径与VLM类似但起步稍晚 2024年下半年出现Gemini for Robotics等方案 仍属概念验证阶段[16] 机器人智能发展维度 - 能力指完成从未实现的复杂任务 π₀演示多步骤操作能力 执行偏差时主动调整 接近人类灵活应对能力[23] - 泛化指在陌生环境中正确执行任务 训练覆盖家庭环境越多 新环境表现越好 数据多样性是提升泛化关键路径[23][44] - 性能需提升任务成功率 稳定性 速度和鲁棒性 当前模型处于演示就绪而非部署就绪阶段 失败仍频繁[24][25] 数据管线构建 - 团队从头搭建数据引擎 超过一半工作集中在数据系统构建 收集和质量保障 六个月收集约1万小时机器人操作片段[30][37] - 数据涵盖数十个不同家庭环境和数百类任务 包括折叠衬衫 物品搬运和整理 更贴近真实生活场景[37] - 移动操控系统采集数据提升多样性 涵盖数百种不同场景 捕捉动态变化环境 任务复杂度从简单抓取扩展到细致操作[41][42] 算法架构创新 - 提出知识绝缘机制重构训练流程 将连续动作序列离散化为text-like tokens 截断梯度回传保护主干网络 训练速度提升10倍[47] - π₀.₅架构以pre-training的Transformer为核心 拓展Action Expert Transformer子模块 实现语义到物理执行高效衔接[50] - 采用软硬件解耦战略 将智能软件作为系统核心 降低对特定机器人硬件依赖 提升模型部署灵活性与效率[53] 开放世界部署挑战 - 数据缺口体现在数量和质量 机器人操作需物理交互闭环反馈时序数据 收集真实有效交互数据门槛高成本昂贵[54] - 性能不稳健是最大挑战 动作指令需高频率低延迟 需应对物理扰动和感知不确定性 存在时序错位问题[54][56] - 硬件平台迁移复杂 不同机器人在控制协议 感知系统和执行机制差异巨大 缺乏统一接口层[58] 未来发展方向 - 重点突破性能瓶颈 研发通用任务配方 构建覆盖多场景多任务的标准化评估体系 通过统一benchmark量化模型性能[60] - 构建通用可定制机器人智能生态 用户通过自然语言发布命令引导机器人完成复杂操作 降低使用门槛[61] - 推动软硬件深度融合 用户可设计定制硬件并注入智能算法 实现物理世界的vibe coding 可能催生机器人模型即服务新模式[61][62]
VLA爆发!从美国RT-2到中国FiS-VLA,机器人的终极进化
具身智能之心· 2025-07-09 14:38
具身智能与VLA模型发展 - 2025年全球具身智能赛道爆火,视觉语言动作模型(VLA)成为核心驱动力,从美国RT-2到中国FiS-VLA实现技术快速迭代 [4][6][7] - 谷歌DeepMind、Figure AI等硅谷领军企业加速布局VLA,谷歌发布首个离线VLA模型实现机器人精准离线操控 [8][9] - 中国智平方联合高校推出FiS-VLA模型,通过快慢双系统架构解决机器人操控效率与推理能力矛盾问题 [10][12] 技术演进关键节点 - 谷歌RT-1(2022年)开创机器人Transformer模型,首次实现"预训练+微调"范式,完成多步骤任务如"把可乐放入冰箱" [23][25][27] - 微软ChatGPT for Robotics(2023年)实现零样本任务规划,但暴露语言模型在动作控制上的局限 [31][32][34] - 谷歌RT-2(2023年7月)确立VLA范式,将动作离散化为文本token联合训练,在未见任务上成功率超50% [38][39][40][46] 中国技术创新突破 - 智平方推出RoboMamba模型,引入Mamba架构使推理速度达主流模型3倍,仅微调0.1%参数实现SE(3)位姿预测 [45][47][50][52] - HybridVLA模型融合自回归与扩散架构,在仿真任务成功率提升8%,真实环境提升11% [74][77][79] - FiS-VLA实现21.9Hz控制频率,是CogACT的2倍以上,在RLBench任务平均成功率69%领先基线方法 [105][114][115] 国际竞争格局 - 开源模型OpenVLA以7亿参数超越55亿参数的RT-2-X,29种操作任务成功率高出16.5% [54][57][58] - Figure AI发布Helix双系统模型,系统1(80M参数)与系统2(VLM主干)实现7-9Hz工作频率 [88][89][93][96] - 英伟达开源GROOT N1人形机器人基础模型,融合互联网与机器人数据实现广义推理 [97][98][101] 行业应用前景 - VLA技术推动机器人从实验室走向工业落地,已在人形机器人和智能制造领域部署应用 [123][124] - π系列模型实现开放世界泛化,在未见家庭场景零样本完成清洁任务,标志技术具备大规模推广能力 [63][69][70] - 技术演进形成"自回归到扩散到混合"与"非端到端到快慢耦合"双路径,推动机器人向通用能力进化 [122]