视觉-语言-动作(VLA)模型
搜索文档
别让vision拖累VLA中的action!
具身智能之心· 2025-12-20 01:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 YiYang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 别让vision拖累action:Mantis VLA的解耦视觉预测 核心亮点 研究背景 近年来,视觉-语言-动作(VLA)模型被广泛应用于机器人任务中。尽管进展显著,但VLA模型仍面临着一个问题:它们依靠低维稀疏的动作信号,去监督高维密 集的视觉输入,以此训练十亿参数级的主干网络(图1),这种不匹配使得模型的大部分表征能力未能被充分利用,制约了整体性能。 论文 :https://arxiv.org/pdf/2511.16175 代码 & Demo :https://github.com/zhijie-group/Mantis 模型&数据集 :https://huggingface.co/collections/Yysrc/mantis 1. 解耦视觉预测(DVF) 减轻主干网络负担,自动捕捉隐式动作,增强显式动作生成。 2 ...
EVOLVE-VLA:VLA模型测试时训练,突破模仿学习瓶颈
具身智能之心· 2025-12-18 00:07
研究背景与动机 - 当前主流的视觉-语言-动作模型采用监督微调训练范式,存在高标注成本和脆弱的轨迹记忆两大根本性局限[2] - 监督微调范式适配新任务需收集数百条演示数据,成本随任务数量线性增长,难以扩展到通用机器人场景[5] - 模型仅模仿演示轨迹,无法泛化到训练分布外的场景,执行出现偏差容易导致任务彻底失败,缺乏错误恢复能力[5] - 人类掌握操作技能的核心是通过实践学习,这与静态模仿学习形成对比,让模型在部署阶段通过环境交互实现持续学习成为关键方向[2] 核心挑战 - 测试时训练的核心障碍是缺乏Oracle奖励信号,即训练时的模拟器真值成功信号在部署时不可用[3] - 直接使用朴素的进度估计器会产生噪声信号,可能误导政策优化,在长视野任务中噪声累积会严重影响学习效果[3] 核心创新点与方法框架 - 提出测试时自主反馈机制,用预训练的进度估计器替代Oracle奖励,提供密集、连续的反馈信号,解决测试时无监督信号的问题[4] - 设计噪声信号驯服策略,包括累积进度估计和渐进式视野扩展两大核心机制[4] - 累积进度估计通过区间里程碑采样、增量进度计算和累积聚合,将噪声点估计平滑为稳定可靠的反馈信号[6] - 渐进式视野扩展分阶段逐步增加最大探索视野,让模型先掌握简单子任务,再衔接复杂长视野任务,提升对估计误差的鲁棒性[6] - 首次实现零样本跨任务迁移,在无需任务特定演示的情况下,让模型通过自主探索适配新任务[6] 实验设置与核心结果 - 实验基准数据集为LIBERO,包含Spatial、Object、Goal、Long四个任务套件共40个任务[15] - 基础模型为OpenVLA-OFT,进度估计器为预训练的VLAC,评估指标为任务成功率[15] - 相比监督微调基线平均成功率89.2%,EVOLVE-VLA提升6.5%至95.8%[16] - 在各任务套件中表现一致提升:Spatial提升4.1%、Object提升7.3%、Goal提升6.0%[18] - 长视野任务提升最为显著,达8.6%,成功率从85.8%提升至94.4%[18] 低数据场景与跨任务泛化 - 在仅使用1条演示数据的1-shot预训练场景下,基线成功率仅43.6%,EVOLVE-VLA提升17.7%至61.3%[19] - 长视野任务提升22.0%,Object任务提升29.9%,验证了框架对降低数据收集成本的作用[20] - 在跨任务泛化测试中,将仅在LIBERO-Long上预训练的模型直接部署到LIBERO-Object,无测试时训练时成功率为0%,经自主探索后成功率达20.8%,实现零样本跨任务迁移[21][22] 消融实验与定性分析 - 累积进度估计机制相比朴素2帧对比方法,成功率从88.3%提升至91.3%,且仅需32次奖励调用,兼顾效果与效率[21] - 在密集奖励基础上添加渐进式视野扩展,成功率从91.3%提升至94.4%,获得额外3.1%增益[23] - 通过测试时训练,模型展现出演示数据中不存在的错误恢复、状态适应和策略创新等涌现能力[27] - 存在失败案例,主要原因为进度估计器与环境成功标准存在语义错位,导致奖励黑客或误判[33] 技术贡献与行业意义 - 该工作将视觉-语言-动作模型从静态模仿推向自主进化,为通用模型发展提供了新范式[32] - 证明通过环境交互实现持续学习是突破数据依赖与泛化瓶颈的关键,为真实世界部署的自适应机器人奠定了基础[32] - 提出基于进度估计器的自主反馈方案,解决了测试时无Oracle奖励的关键问题[34] - 在LIBERO基准上验证了框架有效性,实现了长视野任务+8.6%、1-shot场景+22.0%的性能提升,以及0%到20.8%的跨任务泛化突破[34]
GLaD:知识蒸馏将3D几何先验注入VLA模型,任务成功率突破94%
具身智能之心· 2025-12-12 01:22
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Minghao Guo等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 一、研究背景与核心动机 视觉-语言-动作(VLA)模型是具身智能领域的关键技术,能够让机器人直接从视觉观测和自然语言指令中生成控制动作。现有VLA模型大多依赖CLIP、SigLIP等 2D视觉编码器,这类编码器擅长捕捉图像与文本的语义对应关系,却无法编码3D空间信息(如深度、物体位姿、空间关系)。 这种缺陷会导致模型在操作任务中出现错误的注意力分配,如figure1所示:在"将桌布从桌角移到桌边"和"拾取盘子与ramekin之间的黑碗并放到盘子上"任务中,传 统VLA模型会错误关注无关区域,无法精准定位任务相关物体,进而影响操作任务的完成精度。 为解决这一问题,研究团队提出GLaD框架,核心思路是通过知识蒸馏将3D几何先验注入VLA模型,使其同时具备语义理解和空间推理能力,且无需依赖额外的深 度传感器或3D标注。 ...
LatBot:中科院团队提出潜在动作蒸馏,提升机器人VLA小样本迁移效率
具身智能之心· 2025-12-04 00:04
研究背景与挑战 - 潜动作学习是视觉-语言-动作模型的重要研究方向,旨在从连续帧中提取压缩的运动语义,形成与机器人实体无关的通用表示,以利用大规模人类视频扩展训练数据,突破传统机器人数据集的限制[2] - 现有潜动作模型存在三大关键问题:缺乏任务指令引导,无法捕捉任务相关变化;对多帧信息利用不足,导致潜动作表示不精确;过度关注视觉外观变化,缺乏物理感知,造成潜动作表示与实际可执行动作间的语义鸿沟[2] 核心方法设计 - 提出解耦的潜动作表示,将潜动作分解为两个互补的可学习token,分别编码结构化的场景表示和运动表示,以明确区分机器人主动运动与环境被动变化[4] - 场景token捕捉物体位置、姿态、背景动态等环境被动变化[7] - 运动token编码机器人末端执行器的平移、旋转、夹爪动作等主动运动[7] - 设计统一潜动作解码器,以潜动作为条件,联合引导未来帧重建和帧间动作生成,该解码器基于预训练图像生成模型SANA初始化[5] - 通过层-wise双向交互逐步融合场景和运动信息,实现空间线索与动态线索的渐进融合,最终解码出未来视觉帧和帧间动作[11] - 为将潜动作知识迁移到VLA模型,设计双损失蒸馏策略,包括潜动作对齐损失和推理保留损失,整体蒸馏目标通过一个默认设为0.5的参数平衡两者[8][9] - 蒸馏后,通过动作专家微调将潜表示转化为可执行的机器人动作,微调损失分解为末端执行器损失和夹爪状态损失[9] 实验验证与关键结果 - 预训练数据集融合了OXE、AgiBoT、EgoDex等机器人和人类手部操作数据,共100万视频片段[12] - 在SIMPLER基准测试中,在Google机器人的视觉匹配和变体聚合设置下,平均成功率分别达78.0%和70.1%,显著超过基线;在WidowX机器人上平均成功率87.5%,较基线提升32.3%[12] - 在LIBERO基准的四个任务套件上平均成功率98.0%,其中LIBERO-Long任务较基线提升3.0%[12] - 在Franka真实机器人的5个复杂任务中展现出优异的少样本迁移能力[10] - 仅用10个演示样本时,颜色识别任务成功率达60%,而基线模型完全失败[12] - 50个演示样本下,块插入任务成功率80%,刷子蘸酱任务成功率50%,均大幅超越基线[12] - 全量数据训练时,多个任务成功率达80%-100%[12] - 组件消融实验表明,解耦潜动作表示和统一动作解码器具有显著协同作用,单独使用DLA可将基线平均成功率从51.0%提升至59.4%,单独使用UAD可提升至61.5%,两者结合后成功率跃升至87.5%[10][13] - 通过注意力图可视化发现,蒸馏后的VLM能更精准地定位任务相关目标,在存在干扰物时对真实目标的响应更集中,证明潜动作知识增强了模型的空间接地能力[14] 核心结论与展望 - 关键洞察是通过任务指令引导、多帧输入利用、物理先验融入以及运动与环境变化的解耦,能学习到通用且可迁移的潜动作表示[18] - 核心贡献是提出的LatBot框架通过解耦表示、统一解码器和双损失蒸馏,实现了仿真与真实环境下的优异性能,尤其在少样本场景中表现突出[18] - 未来方向是从更大规模、更多样化的操作视频中提取额外潜token,进一步扩展VLA模型的规模,探索其在更复杂、长程、多实体机器人任务中的潜力[18]
E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度
具身智能之心· 2025-11-29 02:07
文章核心观点 - 提出一种名为E0的新型视觉-语言-动作模型,通过创新的“连续化离散扩散”范式,旨在解决现有VLA模型在泛化能力、细粒度动作控制和建模范式兼容性方面的关键瓶颈 [1][3] - 该模型在三大基准测试和真实世界实验中均达到最先进的性能水平,平均超过基线10.7% [21] 出发点与背景 - 机器人在开放环境中的操作需要具备复杂视觉场景感知、自然语言指令理解和精准可靠的动作生成三大核心能力 [1] - 现有VLA模型作为统一框架,仍面临泛化能力不足、动作控制粗糙和建模范式矛盾等关键瓶颈 [1][3] E0核心创新点 - 针对泛化能力不足问题,难以适配多样的任务指令、环境配置和相机视角 [3] - 针对动作控制粗糙问题,生成的动作不够精细,在插装、抓取特定图案物体等细粒度操作中易失败 [3] - 针对建模范式矛盾,离散建模受限于动作词汇量,连续扩散建模与预训练backbone的符号结构语义错位 [3][4] 技术框架介绍 - 架构以PaliGemma开源VLM为backbone,新增3亿参数的动作专家网络 [6] - 核心逻辑是将连续动作离散化后,通过扩散模型实现迭代优化,同时保留与预训练视觉语言模型的兼容性 [6] - 动作表示采用分位数离散化策略,过滤异常值以保证机器人推理稳定性 [8] 性能表现 - 在LIBERO基准测试中平均成功率达到96%,超过基线模型 [21] - 在ManiSkill基准测试中平均成功率为55.2%,显著优于π₀、RDT等基线模型 [24] - 在真实世界实验中,基于Franka Research 3机械臂,在8类任务中平均成功率为45.6%,高于π₀(43.1%)和π₀ FAST(10.0%) [28] 技术优势 - 连续化离散扩散范式将动作生成建模为对量化动作token的迭代去噪,避免分布失配问题 [11] - 支持任意数量的离散分箱(最高可达2048及以上),突破自回归模型256分箱的限制,提升动作分辨率 [11] - 球面视角扰动增强通过模拟相机在观测球面上的运动生成扭曲图像,提升模型对相机视角变化的鲁棒性 [11] 局限与未来方向 - 特定任务语义对齐不足,在VLABench的Select Painting任务中表现较弱 [35] - 复杂协调任务存在瓶颈,双臂协同、长时程时序依赖任务性能不及单臂任务 [35] - 机械交互建模不足,对需要精细力矩控制的任务存在操作精度短板 [35]
新国立提出VLA-4D:4D感知VLA模型,实现时空连贯的机器人操作
具身智能之心· 2025-11-25 00:03
文章核心观点 - 提出VLA-4D模型,通过融合3D空间与1D时间信息,将4D感知嵌入视觉-语言-动作模型,旨在解决通用机器人任务中时空连贯操作的瓶颈问题 [2][4][5] - 该模型的核心创新在于双重视空融合,通过4D感知视觉表征和时空动作表征,统一提升机器人操作的视觉推理精细度和动作规划的时间连贯性 [4][5] - 在LIBERO基准测试中,VLA-4D模型在多项任务上取得显著领先性能,平均成功率高达97.4%,远超现有2D、3D及4D模型 [19] 模型提出的背景与动机 - 现有2D VLA模型依赖单帧图像输入,存在视觉推理粗糙和2D-3D坐标不匹配问题,导致动作空间精度不足和时空不连续 [6] - 3D VLA模型虽提升了空间平滑性,但缺乏对时间维度的显式建模,易出现动作卡顿、抖动等时间连贯性问题 [6] - 核心目标是通过融合空间与时间信息,同时增强视觉推理和动作规划的精细度,实现机器人操作的空间平滑性与时间连贯性统一 [4] 核心设计与技术细节 - 整体框架采用双重视空融合,将4D信息嵌入视觉表征用于推理,将时间变量融入动作表征用于规划,通过多模态对齐让大语言模型输出时空连贯的动作指令 [5] - 4D感知视觉表征设计包含3D空间与1D时间编码,以及交叉注意力融合机制,生成兼具语义、几何与时空特性的视觉表征 [7][10] - 交叉注意力融合策略相比拼接和加权策略表现更优,在LIBERO-Spatial任务中成功率高达97.9%,完成时间仅4.1秒 [11] - 时空动作表征在传统空间动作参数基础上新增时间变量Δt,用于调控动作执行节奏,形成完整的时空动作表征 [12] 数据集与训练流程 - 基于LIBERO数据集进行扩展,新增时间标注,最终包含40个子任务、15万组视觉-语言-动作样本,覆盖四大场景 [16] - 采用两阶段训练策略:第一阶段进行4D视觉-语言对齐,第二阶段进行机器人任务微调 [15][22] - 两阶段训练相比单一微调能显著提升性能,在LIBERO-Goal任务中成功率从90.7%提升至97.8% [17][18] 实验验证与性能表现 - 在LIBERO基准测试中,VLA-4D在空间推理、物体理解、目标达成和长时规划任务的成功率分别为97.9%、98.6%、97.8%、94.8%,平均成功率97.4%,完成时间仅5.8秒 [19] - 在零样本任务中仍保持高成功率和短执行时间,证明时空表征具有较强的泛化能力 [19] - 动作轨迹全局平滑、局部速度稳定,无卡顿或抖动,时空规划质量显著优于对比模型 [21] 消融实验与关键发现 - 视觉表征模块中,空间嵌入、时间嵌入、特征融合三者缺一不可,同时启用时空间推理任务成功率从89.4%提升至97.9%,完成时间从5.7秒缩短至4.1秒 [24] - 动作表征模块加入时间参数后,完成时间从5.0秒降至4.1秒,效率显著提升 [27] - 视频输入+4D线索是核心,单图像输入的成功率仅85.9%,验证了视频和4D信息的重要性 [27] - 特征分布分析显示,4D视觉特征形成连续的时空流形,对应的动作特征时空连贯,实现高成功率与短耗时的统一 [25]
南洋理工大学提出NORA-1.5:一种基于世界模型与动作奖励的VLA模型
具身智能之心· 2025-11-21 00:04
文章核心观点 - 南洋理工大学等研究单位提出的NORA-1.5模型通过集成流匹配动作专家与奖励驱动的直接偏好优化后训练 解决了现有视觉-语言-动作模型在泛化性和可靠性方面的不足 [1][3] - 该模型在仿真与真实机器人场景中均实现了当前最优性能 持续超越现有SOTA模型 [1][3] 核心定位与解决的关键问题 - 聚焦视觉-语言-动作模型在跨载体部署和真实环境中可靠性与泛化性不足的痛点 [3] - 核心方案是在预训练NORA backbone基础上 新增流匹配动作专家 并搭配双组件奖励模型与DPO后训练 [3] - 核心成果体现在SimplerEnv LIBERO模拟基准和Galaxea A1真实机器人上的卓越表现 [3] 架构设计与技术方案 - 采用独立动作专家直接回归长度为的动作序列 输入为视觉-语言编码键值对 损失函数为流匹配损失 [5] - 动作专家与VLA backbone协同优化 专家利用VLA的场景与指令表征 VLA通过专家反馈优化轨迹规划连贯性 [5] - 基于Qwen-2.5-VL-3B视觉语言模型 经Open X-Embodiment数据集模仿学习预训练 采用FAST+动作分词器高效离散化多类型动作序列 [8] 奖励机制设计 - 采用双组件奖励模型设计 平衡目标导向与稳定性 核心奖励包括世界模型引导的目标奖励和真实动作偏差奖励 [5][6] - 总奖励为两者的加权组合 旨在平衡目标探索与轨迹稳定性 避免单一奖励的缺陷 [6] - 子目标奖励比终目标奖励平均性能高1.7% 在复杂环境中鲁棒性更强 [9][19] 训练流程 - 训练分为两阶段 第一阶段为动作专家联合训练 第二阶段为DPO后训练 [7][10] - 构建偏好数据集时基于总奖励生成胜败动作对 应用DPO目标函数对齐动作专家与VLA解码器输出 [10] 实验性能表现 - 在SimplerEnv零样本场景下 拾取可乐罐任务成功率超越基线4.6% 物体靠近任务成功率超越基线10.7% DPO后整体平均提升4.9% [11] - 在LIBERO长周期任务中 DPO后成功率提升1.0% 综合平均达95.0% 超越SOTA模型 [11] - 在Galaxea A1真实机器人9类拾取-放置任务中 成功率比NORA等模型提升13%-46% 在未见物体或指令场景下提升更显著 [15] - DPO后抓取准确率提升11% 干扰物误抓率下降4% 动作序列长度从9.7缩减至7.0 机器人抓手轨迹更平滑 [15][16]
VLA集体翻车?复旦&创智邱锡鹏教授团队提出LIBERO-Plus,揭示VLA脆弱性真相
具身智能之心· 2025-10-29 00:03
研究背景与动机 - 当前视觉-语言-动作模型在LIBERO等基准测试中取得了接近完美的成功率,但其在真实多变环境下的稳定性和可靠性存疑 [2][4] - 高分模型可能仅仅是过拟合于理想的训练环境,而非真正具备多模态理解能力 [4] - 行业缺乏系统性评估模型在真实变化下泛化性能的基准 [4] 研究方法与框架 - 研究团队提出LIBERO-Plus基准,从物体摆放、相机视角、机器人初始姿态、语言指令、光照条件、背景贴图、传感器噪声七个维度对模型进行泛化性能测试 [4] - 该基准覆盖7大扰动维度、21项子类、5个难度等级,具备全面性和细粒度特性 [2][36] - 框架采用自动化方法大规模生成测试任务,并提出了“组合泛化差距”的概念以量化模型在组合扰动下的性能表现 [29][36] 主要研究发现 - 模型对扰动存在显著的整体脆弱性,在各维度扰动下性能均下降,尤其对相机视角与机器人初始状态的变化最为敏感 [13] - 在相机视角扰动下,部分模型性能急剧下降,例如UniVLA从原始95.2%的成功率降至4.3%,绝对下降90.9个百分点 [13] - 模型对语言指令的依赖度有限,在空白指令测试中部分模型性能基本保持不变,表明其行为更接近视觉-动作模型 [16] - 当语言指令中的目标对象被替换时,模型仍持续执行原始任务,表明其缺乏跨对象指令跟随的强泛化能力 [18][19] - 模型在组合扰动下表现出持续的负向组合差距,表明当前模型缺乏组合泛化能力 [31][32] 模型性能比较 - 在单维度扰动测试中,OpenVLA-OFT模型在无扰动时达到97.1%的成功率,但在相机视角扰动下性能降至59.7%,绝对下降37.4个百分点 [13] - 采用增强数据训练的模型在LIBERO-Plus基准上取得了79.6%的平均成功率,显著优于基线,在相机视角扰动上提升了37.2个百分点 [38] - 不同模型架构和训练范式对鲁棒性影响显著,融合第一人称腕部摄像头、强调数据多样性、协同训练的模型展现出更优的泛化能力 [17][38] 行业影响与建议 - 研究揭示了当前VLA模型在视觉理解、语言交互、组合泛化等方面的鲁棒性缺陷,表明高分数不等于真智能 [2][41] - 行业不应再盲目追求在静态基准上“刷榜”,而应关注模型在真实多变环境下的稳定性 [41] - LIBERO-Plus提供了实时更新的双榜单系统,包括鲁棒性排行榜和原始性能榜,邀请社区共同参与测试以丰富性能图谱 [39][40]
SFT 还是RL,VLA到底应该如何训练?
具身智能之心· 2025-10-28 00:02
研究核心观点 - 聚焦两篇具身强化学习与视觉-语言-动作模型的前沿工作,旨在解决VLA模型泛化能力不足及RL与VLA联合训练效率低下的问题,提出了创新的评测基准与高效训练框架 [2][3][10][15] 第一篇论文研究总结 - 论文系统探讨了强化学习对VLA模型泛化能力的促进作用,针对监督微调导致的误差累积与分布偏移问题,构建了覆盖视觉、语义与执行三大维度的泛化能力评测基准 [2] - 实验结果表明,采用PPO进行RL微调可显著提升语义理解与执行鲁棒性,同时保持与监督微调相当的视觉泛化表现 [2] - 研究发现PPO在VLA场景中整体优于源自大语言模型范式的DPO与GRPO方法,并基于此提出一套高效可复用的PPO训练方案,降低了大规模应用强化学习的门槛 [2] 第二篇论文研究总结 - RLinf-VLA是一个专用于VLA模型大规模强化学习训练的统一高效框架,针对仿训推一体化挑战提出全新解决方案,相比基线方法训练加速高达2.27倍 [3] - 框架通过统一接口无缝支持多种VLA架构、多种强化学习算法以及多种模拟器,其单一模型在130个LIBERO任务上达到了98.11%的成功率 [3] - 该框架还总结了一套将强化学习应用于VLA训练的最佳实践,具有重要的工程应用价值 [3] 研究团队与资源 - 研究团队核心成员来自清华大学交叉信息研究院,在强化学习与机器人学习领域拥有深厚的研究背景 [4][12][14] - 两篇研究论文及相关代码均已公开,便于行业参考与复现 [6][7]
你的VLA太慢了!?算力不够也能提速:这篇综述教你打造高效VLA新范式
具身智能之心· 2025-10-24 16:03
高效VLA模型的提出背景与核心价值 - 动作视觉语言模型是机器人理解环境与执行任务的核心框架,通过端到端映射实现通用指令执行和多任务操作 [3] - 当前主流VLA系统依赖体量庞大的视觉与语言模型,带来巨大的计算与存储开销,推理延迟高,难以满足真实机器人平台对实时性与能耗的严格要求 [3] - 效率问题已成为VLA从实验室研究向实际应用转化的关键瓶颈,该综述首次系统聚焦"效率"这一核心议题 [3] 高效VLA模型的四维度分类框架 - 高效架构设计:包括压缩骨干模型、动态计算路径和双系统架构设计三类主要方案 [16] - 高效感知特征:通过单帧特征选择性处理和跨时序特征复用两条路径优化视觉模态输入,视觉模态输入通常构成最长的Token序列,是VLA模型最主要的计算开销来源 [13][15] - 高效动作生成:分为直接输出低维连续动作向量和在动作前引入显式推理两类策略,动作是连接感知与执行的关键环节 [18][21] - 高效训练与推理:训练端重点降低模型适配成本,推理端聚焦突破自回归瓶颈实现并行化或混合解码 [22] 未来VLA模型的效率优化方向 - 模型数据协同精简:通过选择高价值样本、优化数据结构和控制数据流向,在有限算力下充分利用多模态信息 [25] - 高效时空感知信息:关注任务相关的三维压缩、关键帧和语义筛选策略,降低计算负担实现高效决策 [25] - 高效推理动作编码:通过层次化动作编码、跨动作段特征复用和轻量级在线规划,在保证动作连续性的前提下压缩输出序列 [25] - 高效强化学习策略:采用分阶段训练、离线微调与安全在线适应相结合的策略,复用多模态经验和优化奖励信号 [26] - 效率导向评测体系:建立以资源消耗、任务表现和可解释性为核心的评测体系,统一报告延迟、内存、能耗等指标 [26]