视觉 - 语言 - 动作（VLA）模型 - 财报，业绩电话会，研报，新闻 - Reportify

视觉 - 语言 - 动作（VLA）模型

搜索文档

会自检的VLA！ReflectDrive：更安全更高效scaling的端到端框架（理想&清华）

自动驾驶之心· 2025-09-27 23:33

会自检的ReflectDrive：我的轨迹我做主，安全感拉满！端到端自动驾驶已成为一个重要且快速发展的研究领域。通过大规模数据集学习类人驾驶策略具有相当大的潜力。但是在多模态性能以及长尾场景，没有可持续解决问题的框架。如果仅依赖强化学习来加强，那么reward hack又成为了棘手的问题，很难写出一个全面的reward可以适用连续轨迹复杂的三维空间。所以近年来大语言模型的泛化能力突破让大家看到了希望，是否能够利用模型scaling以及数据scaling去激发模型的泛化性能，也就是vla模型的兴起。大家都想利用上vlm的泛化能力，用更少的数据去解决few shot/zero shot的场景。下面是对于目前自动驾驶方案vla方案的痛点分析：基于上面的描述，可以看出目前迫切需要做到的是L模态和A模态的融合，一种更容易scaling的统一的架构，同时还要做到高效生成。为应对这些挑战，理想和清华的团队提出ReflectDrive——一种新型学习框架，通过离散扩散的反思机制实现安全轨迹生成。我们首先将二维驾驶空间离散化以构建动作代码本，从而能够通过微调将预训练扩散语言模型用于规划任务。该框架的核心是安 ...

端到端自动驾驶

视觉 - 语言 - 动作（VLA）模型

离散扩散模型

端到端自动驾驶

视觉 - 语言 - 动作（VLA）模型

离散扩散模型

当机器人学会 “模仿” 人类：RynnVLA-001 如何突破操作数据稀缺困境？

具身智能之心· 2025-09-22 00:03

点击下方卡片，关注" 具身智能之心 "公众号作者丨 YumingJiang等编辑丨具身智能之心 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。在大语言模型、多模态模型飞速发展的今天，机器人操作领域却始终受困于一个关键难题——大规模高质量操作数据的稀缺。传统机器人数据采集依赖人类远程操控实体设备记录轨迹，不仅耗力耗时，成本更是居高不下，直接制约了视觉-语言-动作（VLA）模型的进步。为打破这一僵局，来自阿里巴巴达摩院的团队提出了全新 VLA 模型 RynnVLA-001。该模型另辟蹊径，将目光投向人类演示数据：通过 1200 万条以ego为中心的人类操作视频，结合两阶段预训练策略，让机器人 "学习" 人类的操作逻辑与动作轨迹。从预测未来操作帧的视觉动态，到关联人类关键点轨迹建立动作映射，再到引入 ActionVAE 优化机器人动作连贯性，RynnVLA-001 成功架起了 "人类演示" 到 "机器人操作" 的桥梁。实验显示，在 LeRobot SO100 机械臂上，RynnVLA-0 ...

视觉 - 语言 - 动作（VLA）模型

LeRobot SO100机械臂

视觉 - 语言 - 动作（VLA）模型

LeRobot SO100机械臂

TrajBooster：首个全身人行操作VLA方案，跨构型解决数据难题（代码全开源）

具身智能之心· 2025-09-18 00:03

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Jiacheng Liu等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文研究背景与问题 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。想象一下：双足人形机器人在客厅里灵活深蹲取物，在厨房中跨高度整理餐具，全程无需大量人工演示数据——这一看似遥远的场景，正被 TrajBooster 框架推向现实。近年来，视觉 - 语言 - 动作（VLA）模型让机器人自主执行家庭任务成为可能，轮式人形机器人已能完成深蹲、跨高抓取等复杂动作，AgibotWorld Beta 数据集显示其末端执行器轨迹覆盖 0.2-1.2 米范围，足以应对日常家庭场景。但双足人形机器人的研发却陷入瓶颈：它需要在保持下半身动态平衡的同时，用上身完成操控，实现大范围全身动作难度极高。更关键的是，训练这类机器人需要大规模高质量演示数据，而传统遥操作流程依赖昂贵设备和专家操作，生成的数据集规模小、场景单一，导致 VLA 模型难以适配新机器人的动作空间。为解决这一痛 ...

视觉 - 语言 - 动作（VLA）模型

Agibot-World Beta数据集

视觉 - 语言 - 动作（VLA）模型

Agibot-World Beta数据集

SimpleVLA-RL：突破 VLA 模型训练瓶颈，RL实现端到端在线训练

具身智能之心· 2025-09-15 00:04

研究背景与核心问题 - 视觉-语言-动作（VLA）模型是机器人操控领域的关键范式能整合视觉感知语言理解与动作生成实现复杂物理环境中的任务执行 [2] - 当前主流训练流程为大规模预训练加监督微调（SFT）但存在数据稀缺性和泛化能力弱两大核心瓶颈 [2][5] - 数据稀缺性体现在SFT需大规模人类操作机器人轨迹数据采集成本极高且规模受限严重制约模型扩展性 [5] - 泛化能力弱体现在面对分布偏移如未见过的任务环境或对象时性能大幅下降尤其在长时序组合型任务中表现突出 [5] - 大推理模型领域的突破证明强化学习（RL）仅通过结果奖励就能显著提升逐步推理能力但VLA应用RL面临独特挑战 [2] SimpleVLA-RL框架设计 - 基于veRL扩展加入VLA交互式轨迹采样多环境并行渲染及训练推理渲染一体化设计解决VLA与环境交互慢成本高的问题 [6][9] - 采用结果奖励建模摒弃传统RL复杂的过程奖励使用二元结果奖励任务成功则整个轨迹奖励为1 失败则为0 [9] - 通过探索增强策略解决VLA模型探索不足问题包括动态采样调整GRPO裁剪范围和提高采样温度 [9][10] - 采用修改后的Group Relative Policy Optimization目标函数移除KL散度正则项减少内存消耗并避免限制新行为探索 [9][10] - 动作token化策略选择与PPO类RL算法兼容性最好的动作token分布生成方案通过随机采样生成多样化轨迹 [9][10] 基准测试性能 - 在LIBERO基准测试中平均成功率从91.0%提升至99.1% 其中长时序任务LIBERO-Long提升12.0个百分点（86.5%→98.5%） [12][13] - 在RoboTwin1.0基准测试中四个任务平均成功率从39.8%提升至70.4% 其中Blocks Stack任务提升33.1个百分点（7.1%→40.2%） [13] - 在RoboTwin2.0基准测试中覆盖短中长超长时序12个任务平均成功率从38.3%提升至68.8% 超越π₀（49.2%）和RDT（33.3%） [14][15] - 即使是需多轮交互的超长时序任务如Put Bottles Dustbin 也提升18.7个百分点 [14][15] 数据效率 - 在单轨迹SFT场景下 LIBERO平均成功率从48.9%提升至96.9% 长时序任务LIBERO-Long从17.3%提升至91.7% [16][17] - 与全轨迹SFT加RL（99.1%）的差距仅2.2个百分点证明RL可大幅降低对大规模演示数据的依赖 [16][17] 泛化能力 - 在LIBERO的9个已见任务训练加1个未见任务测试实验中 SimpleVLA-RL所有未见任务成功率均提升 [18][22] - LIBERO-Object的Unseen Task 2提升36.5个百分点 LIBERO-Spatial的Unseen Task 1从43.3%提升至71.8% [22] - 证明RL能学习通用技能而非过拟合特定数据避免SFT的灾难性遗忘问题 [18][22] 真实世界部署 - 仅用仿真数据训练真实世界机械臂任务平均成功率从17.5%提升至38.5% [7][23] - Stack Bowls任务提升32个百分点（38.0%→70.0%） Pick Bottle任务实现14%成功率 [23] - 验证了高效的Sim-to-Real迁移能力和真实部署能力 [7][23] Pushcut现象与失败模式 - 在RoboTwin2.0任务中 RL训练使模型自主探索出推等超越人类演示的新策略被定义为Pushcut现象 [8][24] - 结果奖励允许模型探索所有能完成任务的路径而非局限于人类演示的单一方式 [24] - SimpleVLA-RL的有效性依赖初始模型能力初始成功率需在阈值以上 RL才能通过探索进一步优化性能 [27][28][29] - 初始成功率为0时即使施加RL性能仍维持0 初始成功率较低时提升有限初始成功率较高时提升显著 [28][29] 研究结论 - 降低对大规模演示数据的依赖提升数据效率 [30][32] - 增强模型在分布偏移场景下的泛化能力 [30][32] - 实现高效的Sim-to-Real迁移提升真实世界任务性能 [30][32] - Pushcut现象证明RL能让VLA模型超越人类演示的局限探索更优策略 [8][24][32]

视觉 - 语言 - 动作（VLA）模型

强化学习（RL）

监督微调（SFT）

Group Relative Policy Optimization（GRPO）

视觉 - 语言 - 动作（VLA）模型

强化学习（RL）

监督微调（SFT）

Group Relative Policy Optimization（GRPO）

机器人入职洗衣房，开始打工挣钱！苹果前AI高管打造

量子位· 2025-09-14 05:05

公司背景 - 由前苹果技术高管Evan Winelan和Kaan Dogrusoz共同创立两位创始人曾任职于苹果公司[15][16] - 公司已完成三轮融资在未正式推出产品前已获得资金支持[4] 技术能力 - 搭载自主训练的视觉-语言-动作模型可精准识别衣物类型并判断折叠边角位置[18] - 配备高性能网络堆栈支持人类操作员远程协助处理复杂情况早期原型实现70%端到端自主折叠[18] - 建立完善数据管道通过持续学习提升处理不同材质和款式衣物的效率与精准度[18] 产品特性 - 为首个实现付费衣物折叠服务的通用型机器人已应用于洗衣房Tumble Laundry[3][4] - 折叠标准严格要求衣物版型均匀边角整齐堆叠方向统一且衣领朝上[5][6] - 具备收纳功能可保持操作台整洁[7] - 设计注重隐私保护闲置时摄像头自动关闭且躯干降低收纳[14] 应用场景与规划 - 当前专注于洗衣房衣物折叠场景正在进行数据采集以提升模型鲁棒性[10][11] - 定位为通用型家用机器人未来计划拓展整理杂物和家庭安防等多样化家务能力[12][14] - 团队核心目标为开发面向家庭场景且能高效完成工作的机器人[19]

视觉 - 语言 - 动作（VLA）模型

视觉 - 语言 - 动作（VLA）模型

AI Day直播 | MemoryVLA：助力长时序机器人操作任务

自动驾驶之心· 2025-09-03 03:19

文章核心观点 - 现有视觉-语言-动作模型在长周期时序依赖任务中表现不佳主要依赖当前观测而忽略历史时序信息 [2][7] - 受人类记忆机制启发提出MemoryVLA框架通过工作记忆和长期记忆系统提升机器人操作性能 [3][7] - 该框架包含感知-认知记忆库和记忆条件化扩散动作专家能够自适应融合历史信息生成时序感知动作序列 [3] 技术方案细节 - 预训练VLM将观测编码为感知token和认知token 分别形成工作记忆和长期记忆 [3] - 感知-认知记忆库存储低层级细节和高层级语义信息并通过合并冗余实现记忆更新 [3] - 工作记忆从记忆库检索决策相关条目与当前token融合后生成动作序列 [3] 应用场景与价值 - 专门针对长周期机器人操作任务设计解决非马尔可夫性任务中的时序依赖问题 [2][3] - 通过模拟人类海马体系统和工作记忆机制提升模型在复杂操作任务中的表现 [3][7] 研究背景与进展 - 论文已发表于arXiv平台编号2508.19236 项目主页同步开放 [4] - 研究成果由清华大学自动化系团队开发计划通过直播形式进行技术分享 [4][7]

视觉 - 语言 - 动作（VLA）模型

工作记忆（working memory）

海马体系统（hippocampal system）

认知 - 记忆 - 动作（Cognition - Memory - Action）框架

视觉 - 语言 - 动作（VLA）模型

工作记忆（working memory）

海马体系统（hippocampal system）

认知 - 记忆 - 动作（Cognition - Memory - Action）框架

MemoryVLA：给机器人装上海马体，助力长时序机器人操作任务

具身智能之心· 2025-09-03 00:03

当前VLA模型局限性 - 主流视觉-语言-动作模型忽略时序context导致长周期任务表现不佳[2] - 机器人操作任务本质具有非马尔可夫性需依赖时序信息[2] - 现有模型决策过度依赖当前观测缺乏长期记忆机制[7] MemoryVLA框架设计 - 受人类工作记忆与海马体系统启发构建认知-记忆-动作框架[3] - 预训练VLM将观测编码为感知token与认知token形成工作记忆[3] - 感知-认知记忆库存储低层级细节与高层级语义实现信息巩固[3] - 工作记忆从记忆库检索决策相关条目并与当前token自适应融合[3] - 记忆条件化扩散动作专家生成时序感知动作序列[3] 技术实现机制 - 记忆库通过合并冗余条目实现动态更新[3] - 框架同时保留逐字细节与语义要点形成多层次记忆[3] - 检索机制增强模型对长周期时序依赖任务的适应性[3] 应用价值 - 解决长周期机器人操作任务中的时序依赖问题[2][7] - 为具身智能系统构建类生物记忆的认知架构[3][7] - 推动视觉-语言-动作模型向更接近人类决策机制演进[3][7]

视觉 - 语言 - 动作（VLA）模型

海马体系统

视觉 - 语言 - 动作（VLA）模型

海马体系统

穆尧团队最新！离散扩散引入VLA，支持精确动作建模和一致性训练

具身智能之心· 2025-09-02 00:03

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Zhixuan Liang等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。当机器人看到 "把勺子放在毛巾上" 的指令，如何精准理解图像中的物体位置、解析语言含义，并生成连贯动作？视觉 - 语言 - 动作（VLA）模型正是解决这一问题的核心技术，但当前方案却陷入两难：自回归模型像 "念课文" 一样逐字生成动作，速度慢还改不了错；连续扩散模型虽能处理复杂动作，却要在主模型外 "外挂" 模块，训练难、兼容性差。 Discrete Diffusion VLA 提出的 "离散扩散视觉 - 语言 - 动作模型"，直接打破了这一困局！它把离散扩散技术首次引入 VLA 动作解码，用一个 Transformer 就统一了视觉、语言、动作三模态——既不用额外训练扩散模块，又能像 "做拼图" 一样并行解码动作，还能通过 "先拼简单块、再补复杂处" 的策略修正错误。在 Franka Panda 机械 ...

离散扩散视觉 - 语言 - 动作模型（Discrete Diffusion VLA）

视觉 - 语言 - 动作（VLA）模型

Franka Panda机械臂

Google机器人

WidowX机械臂

离散扩散视觉 - 语言 - 动作模型（Discrete Diffusion VLA）

视觉 - 语言 - 动作（VLA）模型

Franka Panda机械臂

Google机器人

WidowX机械臂

最新综述！多模态融合与VLM在具身机器人领域中的方法盘点

具身智能之心· 2025-09-01 04:02

多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉领域的应用，涵盖语义场景理解、3D目标检测、SLAM、具身导航和操作控制等任务，并比较传统方法与新兴大模型方法的优劣 [3][4][11][57] 语义场景理解 - 多模态融合通过整合RGB图像、深度信息、LiDAR点云和语言数据，显著提升复杂环境下物体识别、语义分割和关系建模的准确性与鲁棒性 [9] - 主流融合策略分为早期融合（输入层直接拼接）、中期融合（特征层交互如注意力机制）和后期融合（决策层整合），现代方法趋向统一架构实现隐式协作 [10][12] - 实现路径包括编码器-解码器架构（如DeepLabv3+）、基于注意力的Transformer（如MRFTrans）和图神经网络方法（如MISSIONGNN） [12] 3D目标检测 - 多模态融合结合相机（丰富纹理）和LiDAR（精准几何），解决单一传感器在遮挡、极端天气或低反射物体下的性能缺陷 [16][18][19] - 融合设计核心涉及何时融合（早期/中期/后期）、融合内容（特征图、点云、BEV视图）及融合方法（从非注意力型到基于注意力的跨模态交互） [17] - 技术演进从早期MV3D、AVOD到TransFusion（Transformer建模跨模态依赖）和BEVFusion，并扩展雷达-相机融合（如CenterFusion）和4D雷达提升动态感知 [20][21][22] 具身导航 - 分为目标导向导航（依赖视觉语义与空间先验）、指令跟随导航（结合自然语言理解）和基于对话的导航（主动交互与动态调整），体现从感知到交互的演进 [24][26][27][28] - 代表性系统如InstructNav（零样本规划）和NaVid（视频驱动泛化），强调多模态融合在复杂环境中的适应能力 [27][33] 视觉定位与SLAM - 多模态融合（如DeepVO、D3VO）和自监督学习解决光照变化、遮挡及动态场景中的定位问题，神经隐式表示（如NeRF）压缩场景几何与语义信息 [29][30] - SLAM从传统LiDAR-SLAM（几何精准）和V-SLAM（语义丰富）向多模态融合（如V-LOAM、LIC-Fusion）和神经化转型（如UVIO用Transformer建模时序） [34][35] - 未来方向包括轻量化、自监督与感知决策一体化，提升在动态环境中的语义理解与规划能力 [35][38] 视觉-语言-动作模型（VLA） - VLA模型整合视觉感知、语言理解和动作生成，实现从"感知"到"执行"的闭环，代表方法包括RT-2（预训练对齐）、RoboMamba（动作动态建模）和3D-VLA（三维点云融合） [36][37][39] - 高效化趋势明显：OpenVLA通过LoRA降低训练成本，DeeR-VLA采用动态退出机制减少计算开销，VoxPoser支持语言驱动的实时策略调整 [39][40] - 多模态融合使机器人在操作任务中实现感知更强、理解更深和执行更准的三重跃迁 [47] 视觉-触觉融合 - 视觉提供全局物体信息（位置、形态），触觉补充局部反馈（接触力、滑动），提升抓取精度与稳定性，如FusionNet-A融合特征用于抓取规划 [41][42][48] - 触觉在抓取执行阶段实时调整力度和姿态，避免滑动或掉落，并通过时空注意力（如Li等人方法）或自监督学习（如MimicTouch）优化稳定性预测 [44][45][48] 视觉语言模型演进 - 预训练阶段通过对比学习（如CLIP）或自监督方法对齐多模态表示，实现零样本迁移和泛化能力 [50] - 跨模态对齐方法包括对比学习（拉近相关样本）、自监督学习（掩码预测）和跨模态生成（如DALL·E），解决模态间语义粒度差异 [51][55] - VLM从Flamingo、PaLM-E发展到Gemini、Llama-3.2，支持多模态（图像、文本、音频）和结构优化（MoE、稀疏注意力），增强指令理解与推理能力 [53][54] 挑战与未来方向 - 关键挑战包括跨模态对齐的语义偏差、算力有限平台的轻量化部署需求，以及真实环境中的传感器异质性和延迟问题 [58] - 未来重点方向包括结构化空间建模与记忆机制、可解释性与伦理适应性提升，以及发展具备长期学习能力的认知型VLM架构 [58]

多模态融合

视觉语言模型（VLM）

跨模态对齐

语义场景理解

三维目标检测

多模态融合

视觉语言模型（VLM）

跨模态对齐

语义场景理解

三维目标检测

基于大型VLM的VLA模型如何改一步一步推动机器人操作任务的发展？

具身智能之心· 2025-08-26 00:03

文章核心观点 - 大型视觉语言模型VLM正推动机器人操作从预定义任务向开放世界自主执行转变通过视觉语言动作VLA模型整合感知语言理解和动作生成使机器人能理解自然语言指令并在动态环境中执行复杂任务[3][4][16] - 哈尔滨工业大学深圳团队发布首篇系统综述提出VLA模型的单体与分层二元分类体系梳理技术发展核心特征及数据集并指出未来研究方向如记忆机制和3D4D感知升级[5][9][10][74] VLA模型架构分类 - 单体模型整合感知语言理解和动作生成于单一或双系统架构无显式中间表示包括单系统模型统一输入并自回归解码输出动作以及双系统模型分离高层推理与低层动作生成以平衡精度与实时性[19][20][30] - 分层模型显式分离规划与执行通过人类可解释中间表示如子任务关键点或程序连接规划器与策略器分为仅规划器生成中间表示依赖现成策略器以及规划器加策略器端到端优化规划与执行[19][21][41][48] 单体模型技术进展 - 经典自回归解码范式将连续动作离散化为token序列 VLM自回归生成后解令牌为可执行动作如RT-2以PaLM-E/PaLI-X为骨干训练互联网与机器人数据将动作视为语言任务提升语义理解与泛化性[23][24] - 模型性能增强通过扩展感知模态如3D点云 4D时空线索和触觉听觉提升推理能力如引入思维链和分层闭环控制以及优化泛化性如统一动作空间和可逆训练代表技术包括Leo Agent处理点云和CoT-VLA预测子目标[25][26] - 推理效率优化从架构参数和解码策略三方面降低开销如RoboMamba采用Mamba架构达Transformer三倍速度 BitVLA用1-bit权重压缩模型以及PD-VLA并行解码加速动作生成[28][29] 分层模型技术进展 - 仅规划器方法生成程序关键点或子任务等中间表示依赖现成策略器执行如基于程序的Chain-of-Modality生成Python代码控制机器人基于关键点的MoManipVLA预测路点优化轨迹以及基于子任务的PaLM-E统一VQA与指令生成[42][43][45][47] - 规划器加策略器端到端优化规划与执行基于关键点方法如HAMSTER预测轨迹关键点指导策略基于子任务方法如HiRobot分解开放指令为原子命令后执行代表技术还有DexVLA结合VLM规划器与扩散策略器处理长程任务[49][50][51][52] 其他先进技术领域 - 基于强化学习方法通过在线交互或离线轨迹优化VLA策略解决奖励稀疏和样本效率问题如VLA-RL训练过程奖励模型 ReWiND以目标进度为奖励以及ConRFT结合离线与在线训练[54][55][63] - 无训练方法通过架构或计算优化提升效率如FlashVLA稳定场景跳过解码 EfficientVLA剪枝冗余语言层和过滤视觉令牌以及PD-VLA并行不动点迭代加速[56][57][58] - 从人类视频学习利用人类与机器人交互结构相似性迁移任务知识如UniVLA从无标注视频学习任务中心潜在动作 LAPA用VQ-VAE量化动作预训练以及3D-VLA融合视频提升3D推理[59][60] - 基于世界模型整合预测环境动态的紧凑表示通过模拟未来状态优化动作规划如WorldVLA联合预测视觉结果与生成动作 World4Omni生成子目标图像指导策略以及V-JEPA 2-AC通过模拟潜在状态做规划[61][62] 核心特征与能力 - 多模态融合通过共享嵌入空间减少语义偏移令牌级整合捕捉跨模态依赖以及全面模态兼容性无缝整合点云触觉和音频等新模态代表技术包括PointVLA加入点云编码器和VTLA融合触觉输入[64] - 指令遵循依托语义理解与推理实现灵活响应包括语义指令定位动态解读模糊指令任务分解与协作拆分子目标以及思维链推理预测未来视觉状态提升可靠性如ChatVLA-2理解白板数学问题[65] - 多维度泛化实现跨任务跨领域和跨载体适配如DexVLA无需调优完成多样操作 π₀通过异构数据联合训练在家庭环境成功率超90% 以及HAMSTER在七个泛化维度成功率比OpenVLA高20%[65] 数据集与基准测试 - 真实世界数据集捕捉环境复杂性支持语言与动作对齐如OXE整合22个机器人平台的100万+多模态演示 RH20T支持147项任务单样本学习以及DROID含564项自然场景远程操作演示[66][67] - 模拟数据集提供可扩展安全训练环境如BEHAVIOR支持杂乱家庭环境多步骤控制 CALVIN支持无约束语言指令长期操作以及SIMPLER通过校准环境减少模拟到现实差距[67][68] - 人类行为数据集提供语义丰富交互先验如Ego4D含3000小时第一视角视频 EPIC-Kitchens提供细粒度烹饪任务视频以及EgoDex含829小时3D手部追踪视频[68][69] - 具身数据集聚焦规划与推理能力评估如OpenEQA评估功能与常识推理 LoTa-Bench验证LLM生成规划可执行性以及MT-EQA支持多目标推理[69][70] 未来研究方向 - 需优化数据集与基准测试结合大规模真实数据采集与复杂任务套件引入多维度评估指标解决现实差距与任务单一问题并开发记忆机制与长期规划转向目标驱动连贯动作[74][75] - 技术升级包括3D与4D感知整合深度与时间动态信息移动操作整合自适应策略多智能体协作构建共享世界模型开放世界终身学习设计增量知识积累以及模型效率提升通过动态令牌修剪和量化[75]

视觉 - 语言 - 动作（VLA）模型

大型视觉语言模型（VLM）

视觉 - 语言 - 动作（VLA）模型

大型视觉语言模型（VLM）