Workflow
具身智能之心
icon
搜索文档
具身智能领域最新世界模型综述:250篇paper带大家梳理主流框架与任务
具身智能之心· 2025-10-30 00:03
文章核心观点 - 世界模型是具身智能体的“内部模拟器”,负责捕捉环境动态,支持智能体对未来状态进行推理和行动规划 [1] - 随着生成模型的发展,世界模型研究日趋繁荣但缺乏统一梳理,该综述首次提出一个基于功能、时序建模和空间表征的三轴分类法,为领域建立清晰框架 [2][6] 三轴分类法 - **功能定位轴**:区分决策耦合型(为特定决策任务优化)与通用目的型(构建任务无关的通用模拟器) [6] - **时序建模轴**:区分顺序序列模拟(自回归方式逐步建模)和整体差分预测(并行捕捉未来时间步映射关系) [6] - **空间表征轴**:涵盖四种主流空间状态建模策略,包括全局潜变量、Token特征序列、空间潜在网格、分解式渲染 [6] 功能定位分析 - **决策耦合型世界模型**:属于任务驱动型,与策略优化紧密耦合,在模型“想象”的轨迹中直接优化策略,代表模型如Dreamer系列,优势在于任务表现通常出色,但学习的表征可能过度贴合任务而难以泛化 [15] - **通用目的型世界模型**:定位为任务无关的环境模拟器,着眼于对环境动态的广泛预测和高保真生成,优势在于泛化能力强且表示能力丰富,但计算复杂度高,实时推理成本较高 [16] 时序建模分析 - **顺序推理型**:逐步模拟未来世界演化的时间建模方式,便于理解和规划,典型架构包括RNN、Mamba、自回归方式以及思维链和LLM支持的目标分解,优势是时序因果一致,适合闭环控制,但长时预测需多次迭代,容易误差累计且并行性较差 [20] - **全局预测型**:并行地预测整段未来序列的时间建模方式,常见做法包括掩码/JEPA的特征预测与并行扩散视频生成,优势是降低误差累积,并行计算效率高且便于添加全局约束,但闭环交互性较弱,局部动力学细节不足 [23] 空间表征方式 - **全局潜变量**:将场景/世界状态压缩为一个低维变量并在该紧凑表示上进行动力学建模,优势是计算/时延友好,适配实时控制且模型/内存开销小,但细粒度时空信息可能损失 [28] - **Token特征序列**:将世界状态表示为一组离散token的特征序列,便于建模token间依赖关系,优势是与注意力机制耦合,能细粒度表示复杂场景和多模态信息,但需要大量数据训练且常依赖大参数量模型,推理开销高 [29] - **空间潜在网格**:将空间信息注入场景或将场景编码到空间网格中,是自动驾驶领域主流方式,优势是保留空间局部拓扑,易于多视角融合和地图生成,但表示规模大,分辨率受限且对非结构化环境适应性差 [34] - **分解式渲染表示**:将场景拆解为一组可渲染基本要素,再通过渲染流程或生成模型构建观察空间,优势是能生成视角一致的高保真图像并支持物体级别操作,但对动态场景扩展性差,建模和推理成本高,难以实时更新场景中变化部分 [35] 数据资源与评价指标 - **数据资源分类**:具身智能数据资源可划分为四类,包括仿真平台(如MuJoCo、CARLA、Habitat)、交互式基准(如DeepMind Control套件、Atari游戏、Meta-World)、离线数据集(如RT-1、Open X-Embodiment、nuScenes)以及真实机器人平台(如Franka Emika机械臂、Unitree Go1四足机器人) [37][39] - **评价指标层级**:针对世界模型的不同侧重有三层抽象水平评价指标,包括像素级生成质量(如FID、FVD、SSIM、PSNR)、状态/语义一致性(如mIoU、mAP、Displacement Error)以及任务绩效指标(如累积奖励、成功率、碰撞率),新近评测倾向于设计物理合规性、因果一致性等指标弥补传统不足 [40] 性能对比 - **视频生成性能**:在nuScenes数据集上的视频生成性能对比显示,不同方法的FID和FVD指标存在差异,例如Vista方法的FID为6.9,FVD为89.4,而DrivePhysica方法的FID为4.0,FVD为38.1 [41] - **4D占据预测性能**:在Occ3D-nuScenes基准上的4D占据预测性能对比中,DTT-O方法在mIoU指标上1秒预测达到37.69%,2秒预测达到29.77%,3秒预测达到25.10%,平均为30.85% [41] - **控制任务性能**:在连续控制任务中,Dreamer方法在5M训练步数下于Reacher Easy任务获得935的回合回报,Cheetah Run任务获得86?的回合回报,Finger Spin任务获得499的回报,Walker Walk任务获得962的回报,平均为823 [42] - **机器人操作成功率**:在机器人操作任务中,VidMan方法在Stack Blocks任务成功率为48%,Close Jar为88%,Open Drawer为94%,Sweep to Dustpan为?%,Slide Block为98%,平均成功率为67% [43] - **自动驾驶规划性能**:在nuScenes验证集上的开环规划性能显示,SSR方法在1秒、2秒、3秒预测的L2距离分别为0.24m、0.65m、1.36m,平均为0.75m,碰撞率分别为0.00%、0.10%、0.36%,平均为0.15% [43] 挑战与展望 - **数据与评估挑战**:领域缺乏统一的大规模多模态数据集,评估指标往往偏重像素重构误差,忽视了物理合理性、动态一致性和因果关系,未来需要构建跨领域数据集和测试基准 [46] - **计算效率与实时性**:先进世界模型推理开销巨大,难以满足实时控制要求,未来需要在不过度损失性能前提下提高模型推理速度和效率,可能借助模型压缩、稀疏计算及更高效的时序建模方法 [46] - **建模策略与平衡**:在序列自回归和全局并行两种时间建模、不同空间表示之间寻求最佳折中依旧困难,结合两者优点或是一条有效出路,例如利用分层模型或引入显式记忆和层次规划 [46]
IROS 2025-Challenge冠军方案:X-VLA重磅开源,全面刷新机器人基准性能记录
具身智能之心· 2025-10-29 04:07
模型性能突破 - 模型在五大权威仿真基准上全面刷新性能纪录,在Simpler基准的VM任务中达到80.4分,VA任务达到75.7分,WidowX任务达到95.8分,显著超越现有SOTA模型[2][7][24] - 模型以仅0.9B的超轻量参数量实现卓越效费比,在LIBERO基准的Spatial、Object、Goal、Long任务中分别达到98.2、98.6、97.8、97.6分,平均分98.1分,超越现有最高分97.1分[2][7][24] - 模型在Calvin基准的ABC->D任务达到4.43分,在RoboTwin-2.0基准的Easy和Hard任务分别达到70.0分和39.0分,平均分51.1分,在VLABench基准达到87.3分,全面超越现有SOTA[24] 技术竞赛表现 - 在IROS-2025 AGIBOT World Challenge中从全球23个国家431支战队中脱颖而出,最终获得全球第一名[4][5] - 竞赛围绕抓取、折叠、烹饪、倒水等六大真实物理任务展开,模型在多任务多场景的真实物理操作中展现出卓越泛化能力与鲁棒性[4][5] 技术创新亮点 - 引入面向本体泛化的Soft-Prompt机制,动态编码机器人硬件配置信息为连续表征,显著增强模型对异构机器人平台的适应能力[16] - 采用基于功能分工的多模态编码策略,主视角图像由高性能视觉-语言模型编码,辅助视角通过轻量化网络提取局部特征,优化计算资源分配[16] - 采用基于flow-matching的生成式动作解码器,以概率生成方式建模机器人动作序列,增强动作轨迹平滑性与环境鲁棒性[17] 训练数据优化 - 实施严格的多模态数据清洗与时空对齐流水线,将不同空间动作数据统一映射至标准任务空间,提升状态-动作序列的时间一致性逻辑[21] - 确立以语义-动作对齐为导向的数据遴选标准,筛选视觉帧清晰、语言指令精准且与动作序列高度关联的数据样本[21] 实际应用成果 - 在真实机器人平台上成功完成无限时长的自主叠衣任务,展示了应对复杂长程任务的卓越能力[27] - 在大量简单抓取和桌面操作任务中展现强大性能,验证了模型在真实物理环境中的实用性[27]
招募几位具身世界模型相关方向的大佬!
具身智能之心· 2025-10-29 04:00
文章核心观点 - 具身世界模型是一个新兴且具有高产业和研究价值的领域 [1] - 公司正在招募讲师合作开发具身世界模型相关课程 [2][3] 合作内容 - 合作内容包括具身世界模型相关课程设计、PPT制作和内容分享 [4] 招聘要求 - 招聘对象为正在从事具身领域研究的博士及以上学历人员 [5] - 期望候选人至少发表过一篇CCF-A级别会议论文 [5] 待遇说明 - 提供高于行业水平的薪资 [6] - 岗位可兼职 [6]
突破机器人空间感知瓶颈!中山大学与拓元智慧团队提出TAVP框架
具身智能之心· 2025-10-29 00:03
研究背景与问题 - 当前主流机器人视觉-语言-动作模型依赖单一或固定视角观测与共享视觉编码器,在复杂多任务操控场景中存在3D感知不完整和任务干扰严重两大核心挑战[3][5] - 固定视角易导致目标物体或机械臂末端被遮挡,造成场景理解缺失与动作预测失误,例如“将糖放入橱柜”任务中前视摄像头仅能捕捉橱柜而肩视摄像头仅能看到糖[7] - 共享编码器在处理视觉与语义差异大的任务时特征会相互纠缠,限制模型在多任务场景下的泛化能力与扩展性[7] 核心技术创新 - 提出Task-Aware View Planning框架,通过多视角探索策略动态选择最优虚拟摄像头位姿并进行重渲染,采用“Look-at模型”将摄像头位姿表示为5维向量确保视角可解释与优化[9][11] - 任务感知混合专家编码器通过跨模态专家路由融合语言指令与场景视觉信息,动态选择适配当前任务的专家编码器,并设置8个门控对应18项任务实现参数复用[12] - 采用三阶段训练策略:先进行固定视角预训练,再通过PPO算法训练视角探索策略,最后微调任务感知编码器与动作预测网络实现端到端协同[20] 实验性能表现 - 在RLBench基准测试的18项操控任务中平均成功率达到86.6%,超越RVT2的81.4%和ARP+的84.9%等固定视角基线模型[14] - 消融实验表明移除任务感知编码器后平均成功率降至85.6%,而用随机视角替代动态探索后性能骤降至8.9%,证明核心模块不可或缺[15][21] - 在未训练的“打开抽屉”任务中实现12.0%的zero-shot成功率,而无任务感知编码器的模型成功率为0,显示其知识迁移能力[16][22] 泛化能力与效率 - 真实世界鲁棒性测试显示在未知背景和物体场景下成功率分别达到90.0%,远高于Diffusion Policy的70.0%和60.0%[18][19] - 尽管动态视角重渲染增加计算成本,但平均推理时间仅0.436秒,较ARP+的0.394秒仅增加10.7%,通过采样加速与摄像头缓存实现性能平衡[22] - 在真实机器人平台Dobot Nova2上执行“堆叠碗碟”等任务时成功率显著超越Diffusion Policy,证明其在真实场景的适配性[23] 行业应用前景 - 该框架为家庭服务机器人和工业协作机器人等复杂场景应用提供技术支撑,首次实现“任务引导视角选择”与“视角适配动作预测”的协同优化[25] - 未来将优化反光或透明物体对点云重建的影响,并探索多传感器融合进一步扩展机器人操控的任务边界[25]
公司动态 | 40万下载量!星海图真机数据集登顶全球主流开源平台
具身智能之心· 2025-10-29 00:03
数据集发布与市场反响 - 星海图开放世界数据集于2025年8月开源,在两个月内下载量突破40万次,成为全球最受关注、下载量最高的具身智能真机数据集之一 [1] - 数据集获得Physical Intelligence、Bitrobot、Hugging Face等国际前沿团队的公开推荐,被视为极具价值的社区资源 [1] - 全球机器人研究者、实验室与应用企业正基于该数据集进行系统验证和模型训练 [1] 数据集核心价值与行业痛点 - 数据集旨在破解行业依赖互联网数据(质量不均)和仿真数据(难以真实还原物理交互)的困境,直面真实世界的复杂性 [3] - 数据集为全球开发者提供了可直接使用的高质量数据资源,满足其对真实世界数据的迫切需求 [6] - 通过开源真实世界数据,旨在推动具身智能模型在现实环境中的能力验证,加速技术从实验室迈向产业化 [5] 数据集内容与特征 - 数据在50多个真实场景中采集,覆盖住宅、餐饮、零售、办公室等现实人机交互主要形态 [7] - 数据集规模超过10TB,累计时长500小时,包含10万条以上真实操作数据 [7] - 数据涵盖150类任务类型、1600+操作对象与58项操作技能,并提供多模态传感信息与自然语言标注 [7] - 数据集提供细粒度的子任务级注释,实现精确的多模态对齐,并经过严格质检以剔除无效数据,确保可信度 [7] 数据采集的技术与工程支撑 - 采集硬件以自研机器人R1 Lite为主,具备23自由度,支持从精细抓取到全身协调的复杂操作 [8] - 高精度传感器系统保证了动作数据的高保真,球形腕关节与并联抓手确保对多种物体的操控能力 [8] - 工程化体系包含一套智能化数据管线,实现从采集、质检、标注到审核的全流程管理,确保数据质量 [10] - 专业化采集工艺确保机器人在不同场景下动作标准化,减少人为与环境偏差 [10]
VLA集体翻车?复旦&创智邱锡鹏教授团队提出LIBERO-Plus,揭示VLA脆弱性真相
具身智能之心· 2025-10-29 00:03
研究背景与动机 - 当前视觉-语言-动作模型在LIBERO等基准测试中取得了接近完美的成功率,但其在真实多变环境下的稳定性和可靠性存疑 [2][4] - 高分模型可能仅仅是过拟合于理想的训练环境,而非真正具备多模态理解能力 [4] - 行业缺乏系统性评估模型在真实变化下泛化性能的基准 [4] 研究方法与框架 - 研究团队提出LIBERO-Plus基准,从物体摆放、相机视角、机器人初始姿态、语言指令、光照条件、背景贴图、传感器噪声七个维度对模型进行泛化性能测试 [4] - 该基准覆盖7大扰动维度、21项子类、5个难度等级,具备全面性和细粒度特性 [2][36] - 框架采用自动化方法大规模生成测试任务,并提出了“组合泛化差距”的概念以量化模型在组合扰动下的性能表现 [29][36] 主要研究发现 - 模型对扰动存在显著的整体脆弱性,在各维度扰动下性能均下降,尤其对相机视角与机器人初始状态的变化最为敏感 [13] - 在相机视角扰动下,部分模型性能急剧下降,例如UniVLA从原始95.2%的成功率降至4.3%,绝对下降90.9个百分点 [13] - 模型对语言指令的依赖度有限,在空白指令测试中部分模型性能基本保持不变,表明其行为更接近视觉-动作模型 [16] - 当语言指令中的目标对象被替换时,模型仍持续执行原始任务,表明其缺乏跨对象指令跟随的强泛化能力 [18][19] - 模型在组合扰动下表现出持续的负向组合差距,表明当前模型缺乏组合泛化能力 [31][32] 模型性能比较 - 在单维度扰动测试中,OpenVLA-OFT模型在无扰动时达到97.1%的成功率,但在相机视角扰动下性能降至59.7%,绝对下降37.4个百分点 [13] - 采用增强数据训练的模型在LIBERO-Plus基准上取得了79.6%的平均成功率,显著优于基线,在相机视角扰动上提升了37.2个百分点 [38] - 不同模型架构和训练范式对鲁棒性影响显著,融合第一人称腕部摄像头、强调数据多样性、协同训练的模型展现出更优的泛化能力 [17][38] 行业影响与建议 - 研究揭示了当前VLA模型在视觉理解、语言交互、组合泛化等方面的鲁棒性缺陷,表明高分数不等于真智能 [2][41] - 行业不应再盲目追求在静态基准上“刷榜”,而应关注模型在真实多变环境下的稳定性 [41] - LIBERO-Plus提供了实时更新的双榜单系统,包括鲁棒性排行榜和原始性能榜,邀请社区共同参与测试以丰富性能图谱 [39][40]
乐享科技w-bot订单超千台,最新外观曝光
具身智能之心· 2025-10-28 10:00
文章核心观点 - 乐享科技通过其消费级具身智能产品W-bot,在政策与资本共振的背景下,凭借全栈自研技术能力和多场景应用,正引领中国智造抢占全球万亿市场先机 [1][3][14][16] 政策与资本环境 - 2025年政府工作报告首次将“具身智能”列入国家未来产业重点培育清单,苏州率先出台专项政策,形成“国家引导+地方落地”的支撑体系 [3] - 资本市场反应热烈,乐享科技在成立不到一年内密集完成三轮天使轮融资,总额近5亿元,获得IDG资本、红杉种子基金等顶级机构连续加注 [3] - 团队曾将消费级广义机器人做到全球第一的履历,是获得融资的关键因素,降低了技术商业化的不确定性 [3] 技术与研发实力 - 公司构建了覆盖“硬件-软件-算法”的全栈自研体系,硬件端自主研发核心零部件,软件层打造机器人“大小脑”协同系统,算法侧迭代优化意识仿生模型 [6] - 公司80%以上员工为研发人员,核心成员来自清华大学、卡耐基梅隆大学等顶尖院校,在机器人学、人工智能等领域平均拥有10年以上研发经验 [6] - 研发团队每天完成上百次场景测试,以确保W-bot能真正融入家庭与商业场景 [6] 产品与市场表现 - 截至2025年10月,尚未正式量产的W-bot已斩获超千台跨行业预售订单并陆续交付 [1] - W-bot以“交互+服务+娱乐”的多重核心能力,实现了从消费端到产业端的跨场景覆盖 [7] - 2025年6月,公司推出的WAWA初代原型机在京东拍卖以29799元成交,市场验证早有端倪 [11] 应用场景拓展 - 在家庭场景中,W-bot精准切入“室内+室外”两大核心需求,室内可承担陪伴交互、安防、物品递送等任务,室外具备避障、多地形适应能力,解决快递代收、宠物溜放等痛点 [7] - 在户外聚会露营场景中,W-bot具备物品运载、移动储能、跟拍摄影、AI一键成片及娱乐影音中心的功能 [8] - 在产业场景中,W-bot实现创新应用,如作为首个进入公共体育场景的具身智能产品亮相2025年苏超赛场,并在零售、教育、宠物、地产、商业等领域承担多种任务 [10] 行业前景与公司愿景 - 摩根士丹利报告显示,2024年全球机器人市场规模为470亿美元,预计2028年增至1080亿美元,年复合增长率约23%,其中人形机器人年增速达56% [12] - 高盛预测到2035年具身智能可替代全球25%制造业岗位,催生万亿级新价值链,消费级市场的爆发将比工业领域更为迅猛 [15] - 公司目标清晰坚定,旨在成为全球消费级具身智能产品的开创者与长期领导者 [14]
英伟达最新 | 0成本搭建你的SOTA模型!轻量化VLA时代来啦~
具身智能之心· 2025-10-28 04:00
文章核心观点 - NVIDIA团队提出的VLA-0模型采用“零改动”设计,不修改基础视觉语言模型的结构,而是将机器人动作转化为文本格式让模型直接预测,该方法在模拟和真实机器人操控任务中超越了多种复杂架构的视觉-语言-动作模型[1] - 该设计的核心优势在于避免了因添加动作生成头或修改词汇表而破坏VLM原有的语言理解能力,同时实现了更高的数据效率和更低的研发与部署成本[2][16] - 实验证明,VLA-0在LIBERO基准测试中以94.7%的平均成功率排名无预训练模型第一,并在真实机器人任务中以60%的成功率超越对比模型12.5个百分点[10][11] VLA-0的核心设计思路 - 模型完全保留基础VLM的结构,仅通过“动作文本化表示”与“精细训练策略”使其具备动作预测能力,核心环节包括输入设计、动作解码以及训练与推理策略[3] - 输入设计复用VLM原生格式,包含系统提示、多模态观测和自然语言任务指令,多图输入方式(单独或拼接)性能差异极小,仅0.2%[4] - 动作解码将连续动作值归一化到固定整数范围(如0-1000),VLM直接生成空格分隔的整数字符串,再反向解析为连续动作执行,动作分辨率可通过调整整数范围任意设定[4] 训练与推理策略 - 训练端采用掩码动作增强策略,随机掩码动作文本中的部分字符,迫使VLM基于图像和任务指令推理动作,该策略提升平均成功率1.2%[4] - 推理端采用集成预测策略,综合多步预测结果取平均值作为最终执行动作,提升动作稳定性,实验显示可提升平均成功率2%[5][6][7] - 训练配置基于30亿参数的Qwen-VL-2.5模型,使用Adam优化器,在8张A100上训练64个epoch仅需32小时,批量大小为192,学习率为5e-6[7] 模拟场景实验结果 - 在LIBERO基准的4个任务套件测试中,VLA-0在无大规模动作预训练的模型中平均成功率达94.7%,排名第一,比第二名模型高1.4%[9][10] - 在Spatial、Object、Goal三个套件中成功率分别为97.0%、97.8%、96.2%,均为最高[10] - 与经过大规模预训练的模型相比,VLA-0无预训练仍超越多个知名模型,如GR00T-N1(93.9%)和MolmoAct(86.8%),平均排名2.8[10] 真实场景实验结果 - 在SO-100真实机器人上测试4个典型操控任务,VLA-0平均成功率达60%,超越基于大规模SO-100数据预训练的SmolVLA模型(47.5%)12.5个百分点[11][13] - 在单张5090 GPU上实现4Hz推理速度,未使用集成预测,若启用集成可进一步提升稳定性但需8个模型实例并行[12] 关键结论与行业影响 - VLA-0证明了简单设计可实现顶尖性能,其“零改动”思路避免了复杂架构改动对VLM原有能力的破坏,为模型工程化落地提供了新方向[14][15] - 模型不依赖大规模机器人动作预训练,仅用任务专属的少量演示数据(如每个真实任务100条演示)就能超越预训练模型,大幅降低数据采集成本[15] - 基于轻量级VLM(Qwen-VL-2.5-3B)实现了性能与部署可行性的平衡,训练成本低、推理速度快,更适合实际机器人系统[16]
为什么RL在人形/四足/机械臂等本体上依然还有很多工作可以做?
具身智能之心· 2025-10-28 04:00
强化学习行业应用现状 - 强化学习在机器人领域应用广泛,是人形机器人(如宇树、智元)和四足机器人实现爬楼梯、跑步、跳舞等高难度动作的关键技术[2] - 机械臂的视觉语言动作模型与强化学习结合方案在学术领域越来越受欢迎,能提升机器人执行任务的效率与流畅度[3][8] - 强化学习技术是迈向通用具身智能必须攻克的难关,使机器人能适应救援、测量等危险环境场景[2] 课程核心内容与结构 - 课程周期为14周核心在线辅导加8周维护答疑,采用1v6小班模式,每周包含1次直播课、课程录播和专属微信群答疑[7][9][15] - 课程设置三轨并跑,学员可在四足、人形、机械臂三个方向中任选其一作为研究主线[15] - 课程基于最新的IsaacLab仿真环境,提供SAC/PPO/BC/Diffusion Policy等基线代码,涵盖从仿真训练到真机部署的完整流程[15][16][20] 课程产出与目标 - 课程目标明确为产出一篇符合RAL/ICRA/IROS/CoRL等顶级会议或期刊投稿要求的论文初稿[7][9][23] - 课程提供6个以上可创新的研究想法,涵盖四足、人形、机械臂、VLA+RL四大方向,即使学员没有成熟想法也能在提供的基线上迭代出论文初稿[14][16][24] - 课程包含结构化论文模板、统一图表体例、投稿与审稿回复辅导,结营后提供8周论文维护支持补实验、改图和润色[16][21][23] 师资与学员要求 - 授课导师为来自美国顶尖高校的博士后研究员,在RSS、ICRA、IROS、RAL等顶级机器人会议期刊有发表经验并担任审稿人[21] - 学员需具备一定的Python编程和Linux基础,并配备Nvidia GPU(建议12G以上),拥有Unitree/Franka等硬件设备者可优先参与实机环节[25] - 课程选拔需要简单面试,评估学员背景、选题意向和时间投入,每期限额6人[31]
SFT 还是RL,VLA到底应该如何训练?
具身智能之心· 2025-10-28 00:02
研究核心观点 - 聚焦两篇具身强化学习与视觉-语言-动作模型的前沿工作,旨在解决VLA模型泛化能力不足及RL与VLA联合训练效率低下的问题,提出了创新的评测基准与高效训练框架 [2][3][10][15] 第一篇论文研究总结 - 论文系统探讨了强化学习对VLA模型泛化能力的促进作用,针对监督微调导致的误差累积与分布偏移问题,构建了覆盖视觉、语义与执行三大维度的泛化能力评测基准 [2] - 实验结果表明,采用PPO进行RL微调可显著提升语义理解与执行鲁棒性,同时保持与监督微调相当的视觉泛化表现 [2] - 研究发现PPO在VLA场景中整体优于源自大语言模型范式的DPO与GRPO方法,并基于此提出一套高效可复用的PPO训练方案,降低了大规模应用强化学习的门槛 [2] 第二篇论文研究总结 - RLinf-VLA是一个专用于VLA模型大规模强化学习训练的统一高效框架,针对仿训推一体化挑战提出全新解决方案,相比基线方法训练加速高达2.27倍 [3] - 框架通过统一接口无缝支持多种VLA架构、多种强化学习算法以及多种模拟器,其单一模型在130个LIBERO任务上达到了98.11%的成功率 [3] - 该框架还总结了一套将强化学习应用于VLA训练的最佳实践,具有重要的工程应用价值 [3] 研究团队与资源 - 研究团队核心成员来自清华大学交叉信息研究院,在强化学习与机器人学习领域拥有深厚的研究背景 [4][12][14] - 两篇研究论文及相关代码均已公开,便于行业参考与复现 [6][7]