具身智能之心
搜索文档
World-in-World:约翰霍普金斯 × 北大联合提出闭环下的具身世界模型评估框架!
具身智能之心· 2025-10-26 04:02
文章核心观点 - 当前生成式世界模型的评估体系存在缺陷,过度关注视频生成质量而忽略了其在具身智能任务中的实际决策辅助能力 [1][2] - 约翰・霍普金斯大学和北京大学等团队推出的World-in-World平台首次采用闭环交互方式评估世界模型,将焦点从“画面逼真度”转向“任务实用性” [1][3] - 实验证明,对具身任务而言,模型的动作-预测对齐能力(可控性)比视觉质量更重要,且通过任务数据微调小模型比直接使用大模型更具成本效益 [16][17][18] 评估体系痛点 - 现有评估基准如VBench和WorldModelBench均为开环测试,只评估视频清晰度和场景合理性,不测试模型帮助智能体完成实际任务的能力 [2] - 生成式世界模型技术已能实现分钟级视频生成和动态3D场景变化,但评估体系与具身任务所需的“动作和预测对齐”需求严重脱节 [2] - 在示例中,能生成超清晰画面但动作预测错误的模型A,反而比画面稍模糊但预测精准的模型B获得更高评分,凸显了评估标准的不合理 [2] 平台设计框架 - 平台通过统一动作API解决模型兼容性问题,将智能体的原始动作转换成不同世界模型能理解的格式(如文本提示、相机位姿序列) [6] - 采用三步闭环决策流程:提案阶段生成候选动作序列,模拟阶段预测执行后未来画面,修正阶段根据任务目标评分选择最优方案执行 [7][13] - 决策公式融合了候选动作、预测结果、当前观测和任务目标四要素,确保每一步决策都有依据 [9] 任务测试范围 - 平台选取四类真实具身任务进行测试:主动识别、图像导航、具身问答和机械臂操作 [10][14] - 针对预训练视频生成模型,平台设计了后训练机制,使用任务相关的动作-画面数据进行微调,且训练与测试场景分离防止过拟合 [12] 实验关键发现 - 模型可控性(1-LPIPS衡量)与任务成功率呈正相关,证明“听话”比“好看”更重要 [16] - 1.5B参数的SVD模型经80K数据微调后,主动识别成功率从56.3%提升至61%,而14B参数的Wan2.2模型未微调时成功率低于微调后的SVD [17] - 增加推理时模拟的候选动作数量可提升成功率,SVD模型模拟次数从3次增至11次,主动识别成功率从53.4%升至61%,且平均路径长度缩短12% [20] - 在机械臂操作任务中,表现最佳的SVD模型成功率仅为46.5%,仅比基础策略高2个百分点,暴露出现有模型缺乏物理建模能力的短板 [21][22] 未来发展方向 - 世界模型研发应聚焦提升可控性,确保模型能精准响应动作指令 [23] - 利用少量任务数据微调是低成本提升模型效果的高性价比路径 [17][23] - 需补强物理建模能力,使模型能够理解碰撞、摩擦力等物理规律,以胜任机械臂操作等精细任务 [22][23]
汇报一下ICCV全部奖项,恭喜朱俊彦团队获最佳论文
具身智能之心· 2025-10-26 04:02
文章核心观点 - ICCV 2025会议在美国夏威夷举行,中国提交论文的作者占比达到50% [1] - 会议公布了多项重要奖项,包括最佳论文奖、最佳学生论文奖等,展示了计算机视觉领域的最新研究进展 [3][4][6][7][9][10][12][14][16] 获奖研究成果 - **最佳论文奖(马尔奖)**:研究提出BRICKGPT模型,能够根据文本提示生成物理稳定的积木结构,构建了包含超过47000个积木结构的数据集StableText2Brick,涵盖28000多个独特三维物体 [24][26] - **最佳学生论文奖**:提出FlowEdit方法,基于预训练T2I流模型实现文本驱动图像编辑,无需反演和优化,在Stable Diffusion 3和FLUX上取得最先进效果 [38][39][40] - **最佳论文荣誉提名**:来自卡内基梅隆大学的团队开发空间可变自动对焦技术,利用光学组合使每个像素聚焦在不同深度上,能够同时使整个场景保持清晰对焦 [42][44] - **最佳学生论文荣誉提名**:RayZer模型以未标定图像作为输入,自主恢复相机参数并生成新视角画面,仅通过2D图像监督完成训练 [47][48][49] - **赫尔姆霍兹奖**:Fast R-CNN方法在PASCAL VOC 2012数据集上对VGG16网络的训练速度较R-CNN提升9倍,测试速度提升213倍 [54];PReLU网络在ImageNet 2012分类数据集上实现4.94%的Top-5测试误差,相比GoogLeNet的6.66%提升26%,首次超过人类水平的5.1% [58][59][60] 获奖团队与研究人员 - **The SMPL Body Model Team**:开发了基于蒙皮和混合形状技术的逼真人体三维模型,模型参数完全从数据中学习 [62][64][66] - **The VQA Team**:提供了包含约25万张图像、76万个问题和约1000万个答案的视觉问答数据集,并提供了多种基线方法 [67][68][69] - **David Forsyth**:伊利诺伊大学香槟分校计算机科学教授,研究方向包括计算机视觉、计算机图形学和机器学习 [72][73] - **Michal Irani**:以色列魏茨曼科学研究院教授,研究领域为计算机视觉、图像处理和人工智能 [75] - **Rama Chellappa**:约翰霍普金斯大学布隆伯格杰出教授,研究领域涵盖计算机视觉、模式识别、图像与信号处理等 [78] 研究人员背景 - 朱俊彦:清华大学计算机科学系本科毕业,UC伯克利博士,现任CMU助理教授,博士论文获ACM SIGGRAPH 2018"杰出博士论文奖" [30][31] - Kangle Deng:Roblox研究科学家,北京大学本科,卡内基梅隆大学博士 [33] - Ruixuan Liu:卡内基梅隆大学博士生,研究方向包括机器人学习、操作与控制等 [35] - Changliu Liu:清华大学本科,加州大学伯克利分校博士,现任卡内基梅隆大学机器人研究所副教授 [37]
从世界模型到VLA再到强化,具身大小脑算法原来是这样的!
具身智能之心· 2025-10-26 04:02
具身智能技术框架 - 行业将具身智能技术框架类比为人类的大脑和小脑,大脑负责思考感知(语义理解和任务规划),小脑负责执行(高精度的运动执行)[3] - 细分领域包含仿真、VLA、Diffusion Policy、VLN、世界模型、强化学习等多个子模块[5] - VLA和世界模型目前是自动驾驶和具身智能领域的两大技术路线[5] 核心技术演进路径 - 第一阶段技术研究聚焦于抓取位姿检测,通过点云或图像预测末端执行器姿态,但策略多为单步决策,缺乏对任务上下文和动作序列的建模[7] - 第二阶段进入行为克隆阶段,机器人借助专家演示数据学习端到端映射,但暴露出泛化能力弱、误差累积等问题[7] - 第三阶段以2023年兴起的Diffusion Policy为代表,通过扩散模型生成整个动作轨迹,提升策略稳定性与泛化能力;2024年进入VLA模型阶段,融合视觉、语言与动作生成,支持零样本或小样本快速泛化[8] - 第四阶段自2025年以来,行业探索VLA与强化学习、世界模型、触觉感知等模块的融合,以弥补现有模型在反馈、预测和多模态感知方面的局限[9] 当前技术热点与方向 - VLA目前主要研究热点为端到端和分层两种方案,并分别基于大模型和Diffusion技术拓展,VLA+RL方案正成为学者探索方向[5] - Diffusion Policy作为动作模块,负责学习具体动作和执行,主要方向包括状态扩散、动作空间扩散、三维空间扩散等[6] - 仿真技术关注sim2real和real2sim2real,以解决真机泛化差的问题,该方案已获多家具身公司认可[6] - VLN更关注目标导航,与移动操作相关联,map-free方案利于任务泛化[6] - VLA与强化学习结合提升机器人在长时任务中的试错与自我改进能力;与世界模型结合引入环境动态预测,使机器人具备“想象未来”的能力;与触觉信息结合拓展多模态融合的感知边界[10] 行业应用与市场前景 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地,服务于工业、家居、餐饮、医疗康复等领域[10] - 相关产品和融资络绎不绝,岗位呈现爆发式增长,吸引大量人员转入具身智能领域[10] - 随着产业界重视,行业从“论文”走向“部署”,对工程与系统能力需求激增[14]
国内具身创业公司的机器人,让老外直接破防了!
具身智能之心· 2025-10-24 16:03
国内具身智能机器人产品突破 - 松延动力人形机器人Bumi定价为9998元,是全球首款价格低于1万元的高性能机器人,价格低于某些高端手机 [1] - 智身科技钢镚L1机器狗峰值扭矩高达48N·m,在IROS25作为唯一非宇树比赛用机,可应对50公斤级机械狗的极限环境运动 [3] - 宇树发布H2仿生人形机器人,身高180cm,体重70kg,具备旋转跳跃等灵活运动能力 [5] - 国内团队在本体和算法上的突破超越预期,获得国外公司与研究人员的高度关注 [7] 具身智能之心知识星球社区资源 - 社区已搭建近一年,形成技术路线分享、直播、问答、求职、赛事等多版块闭环,连接产业、学术、求职等领域 [7][8] - 社区提供持续直播分享,包括圆桌论坛,涵盖本体、数据、算法等主题,探讨行业现状与待解决问题 [8] - 为入门者整理技术栈和学习路线,为从业者提供产业体系与项目方案,并建立与多家具身公司的岗位内推机制 [10][12][13] - 社区汇总超过40个开源项目、近60个具身智能相关数据集、行业主流仿真平台及各类技术学习路线 [16][17] - 社区成员近2000名,来自斯坦福大学、清华大学等国内外知名高校实验室,以及智元机器人、优必选等头部公司 [16][17] 星球内部知识体系与福利 - 汇总国内外具身智能高校与公司,覆盖教育、工业、医疗等多个方向,并提供行业研报、机器人相关书籍PDF等资源 [20][21][23][24] - 详细汇总机器人零部件品牌、开源项目、ToF与3D相机、数据采集方案及各类开源数据集,涵盖感知、导航、大模型等多个领域 [25][26][27][28][29] - 整理具身智能仿真平台、强化学习/VLA+RL、视觉语言导航、触觉感知、多模态大模型理解与生成等前沿技术内容 [30][31][32][33][34][35] - 针对具体技术应用如Diffusion Policy、机器人导航规划、大模型部署、机械臂抓取、双足/四足机器人等均有专项汇总 [39][40][41][42]
你的VLA太慢了!?算力不够也能提速:这篇综述教你打造高效VLA新范式
具身智能之心· 2025-10-24 16:03
高效VLA模型的提出背景与核心价值 - 动作视觉语言模型是机器人理解环境与执行任务的核心框架,通过端到端映射实现通用指令执行和多任务操作 [3] - 当前主流VLA系统依赖体量庞大的视觉与语言模型,带来巨大的计算与存储开销,推理延迟高,难以满足真实机器人平台对实时性与能耗的严格要求 [3] - 效率问题已成为VLA从实验室研究向实际应用转化的关键瓶颈,该综述首次系统聚焦"效率"这一核心议题 [3] 高效VLA模型的四维度分类框架 - 高效架构设计:包括压缩骨干模型、动态计算路径和双系统架构设计三类主要方案 [16] - 高效感知特征:通过单帧特征选择性处理和跨时序特征复用两条路径优化视觉模态输入,视觉模态输入通常构成最长的Token序列,是VLA模型最主要的计算开销来源 [13][15] - 高效动作生成:分为直接输出低维连续动作向量和在动作前引入显式推理两类策略,动作是连接感知与执行的关键环节 [18][21] - 高效训练与推理:训练端重点降低模型适配成本,推理端聚焦突破自回归瓶颈实现并行化或混合解码 [22] 未来VLA模型的效率优化方向 - 模型数据协同精简:通过选择高价值样本、优化数据结构和控制数据流向,在有限算力下充分利用多模态信息 [25] - 高效时空感知信息:关注任务相关的三维压缩、关键帧和语义筛选策略,降低计算负担实现高效决策 [25] - 高效推理动作编码:通过层次化动作编码、跨动作段特征复用和轻量级在线规划,在保证动作连续性的前提下压缩输出序列 [25] - 高效强化学习策略:采用分阶段训练、离线微调与安全在线适应相结合的策略,复用多模态经验和优化奖励信号 [26] - 效率导向评测体系:建立以资源消耗、任务表现和可解释性为核心的评测体系,统一报告延迟、内存、能耗等指标 [26]
浙大 | EMP框架让人形机器人“学动作不摔倒”!
具身智能之心· 2025-10-24 16:03
研究背景与核心创新点 - EMP项目代表了一种人形机器人强化学习的新范式,其核心创新在于在强化学习前插入一个“动作可行性网络”,用于判断动作的可行性[5] - 该项目的亮点在于通过上半身模仿、下半身平衡和可执行修正,实现安全稳定的人形控制[5] - 未来结合视觉语言模型等技术,机器人可能在执行语言指令前先评估自身能力是否可行[5] EMP创新点概览 - 完整的“上半身模仿框架”由三部分构成:运动重定向网络、上半身强化学习控制策略、可执行运动先验模块[6] - 运动重定向网络基于图卷积,将人类上半身动作映射到机器人关节空间,生成可训练的上半身数据集[6] - 上半身强化学习控制策略使用Isaac Gym训练,专注于下半身平衡控制,同时跟踪上半身模仿目标[6] - 可执行运动先验模块采用变分自编码器结构,实时调整上半身动作幅度与方向,确保动作在机器人物理能力范围内[6] 算法框架与核心机制 - 系统采用三阶段流程:数据生成阶段用图卷积网络将人类动作映射到机器人结构;策略训练阶段让机器人在Isaac Gym中学会平衡状态下执行动作;运动修正阶段判断并修正超出执行极限的动作[11] - 运动重定向采用VQ-VAE框架,将人类上半身作为节点建立骨架图结构,利用图卷积编码器-解码器结构转换动作[13] - 损失函数包括末端效应器误差、姿态误差、结构保持误差和潜变量分布约束损失,以生成高质量的机器人动作数据集[13] 强化学习控制策略 - 策略拆分为负责下半身平衡控制的π_lower和负责上半身模仿动作的π_upper[15] - 强化学习目标是在保持稳定的前提下尽量模仿人类上半身目标动作,状态空间包括关节角度、基座姿态和目标动作等信息[15] - 奖励函数设计包含稳定性奖励、运动一致性奖励以及能量与光滑度惩罚,采用PPO变体算法训练6小时即可收敛[16] - 通过随机化摩擦、惯量、扭矩等参数以及加入推搡扰动,增强策略的抗扰动性以实现仿真到现实的迁移[17] EMP模块技术细节 - EMP模块基于变分自编码器,当目标动作过大时会判断重心偏移风险并自动收敛动作幅度,在保持平衡的同时不失去原始动作形态[18][19] - 损失函数包括重构损失、姿态保持和自碰撞惩罚,其中光滑性与姿态稳定是维持平衡的关键[21] - 由于仿真环境无法直接反传梯度,团队训练了一个世界模型来预测状态转移,使EMP模块能间接获得物理反馈,整个训练过程在RTX4060上仅需5小时[22][23] 仿真与实机实验结果 - 实验采用27自由度人形机器人,在Isaac Gym环境中进行,RL与EMP运行频率为50Hz,PD控制器为1kHz[25] - 对比实验显示,EMP方法成功率达到了98.1%,自碰撞率为0.15,基座姿态稳定性为0.69,在保持最佳稳定性的同时几乎不牺牲模仿精度[29] - 消融实验表明,去掉方向损失会导致稳定性完全崩溃,去掉重心损失会使机器人重心频繁偏移,多重损失的协同约束是EMP稳定站立的关键[32] - 实机测试在真实人形机器人平台上部署,EMP策略可直接运行无需再训练,即使在双手负载随机变化的情况下仍能保持稳定,在另一款老旧平台上也能将成功率提升至97.8%[33][34]
强化学习是怎么赋能人形/四足/机械臂等本体的?学术界是怎么展开的?
具身智能之心· 2025-10-24 10:00
强化学习行业应用现状 - 强化学习在学术和工业界持续受到重视,在顶会上相关研究出现较多 [1] - 强化学习是具身智能机器人(如人形、四足机器人)实现步态控制等复杂任务的核心技术,应用于爬楼梯、跑步、跳舞等高难度动作 [2] - 机械臂的视觉语言动作模型与强化学习结合方案在学术领域越来越受欢迎,能提升执行效率与流畅度 [3][8] 课程核心服务与目标 - 课程旨在解决强化学习入门难、论文产出难的问题,通过14周核心辅导加8周维护期,帮助学员产出可投向RAL/ICRA/IROS/CoRL等顶级会议或期刊的论文初稿 [6][9][15] - 课程采用1对6小班教学模式,配备专属助教,提供每周一次直播课及录播视频 [7][15] - 课程产出导向明确,确保结营时完成论文初稿,并提供投稿与审稿回复支持 [15][21] 课程内容与结构 - 课程内容覆盖强化学习基础、仿真环境、Sim2Real技术、四足/人形/机械臂的专项应用以及VLA+RL等前沿方向 [9][16][18][19][20] - 课程基于最新的IsaacLab仿真环境,提供SAC/PPO/BC/Diffusion Policy等基线代码,并包含真机部署参考 [15][16] - 教学采用“三轨并跑”模式,学员可根据兴趣选择四足、人形或机械臂作为主线研究方向 [15] 师资与特色 - 授课导师Jack为美国顶尖高校博士后,在RSS、ICRA、IROS、RAL等顶级会议期刊发表过论文并担任审稿人 [21] - 课程特色包括科研全流程陪跑、每周设定量化指标、提供6个以上可创新的研究想法以及结营后8周的论文维护支持 [14][15][16][21] - 课程强调从方法、工程、评测到写作、投稿的完整科研闭环,与普通训练营形成差异化 [30]
有的同学还没入门具身,有的已经CCF-A!?
具身智能之心· 2025-10-24 10:00
公司服务概述 - 公司提供具身智能领域的论文辅导服务,覆盖多模态大模型、视觉语言导航、机器人仿真等前沿研究方向[1] - 服务采用1对1定制化辅导模式,辅导范围涵盖从CCF-A到CCF-C级别的会议以及SCI一区到四区的期刊[1] - 公司导师团队由来自国内外名校的博士及头部企业研究员组成,拥有ICML、NeurIPS、CVPR等顶级会议的投稿和审稿经验[1] 公司服务流程与优势 - 公司提供全流程闭环辅导,包括选题创新点挖掘、实验设计、代码调试、论文写作和投稿策略等环节[1] - 公司服务兼具工业界和学术界双视角,不仅关注论文发表,更注重研究成果的落地价值[2] - 公司为前10名咨询者提供免费匹配专属导师的机会,可进行深度会议并获得个性化的会议期刊选投建议[3]
劲爆!3.99万起!高灵巧双臂机器人竟能拉小提琴,打羽毛球?正式亮相IROS'25
具身智能之心· 2025-10-24 04:00
产品定位与市场痛点 - 产品定位为低成本、高负载、高灵活的仿人机械双臂,是科研机构和企业研发团队突破瓶颈的关键工具 [1] - 解决市场痛点:目前市面工业、协作及柔性机械臂大多无法满足科研场景对灵巧性、开放性的高要求,且价格动辄数十万元,对科研需求不友好 [1] - 公司基于日本OpenArm团队的开源设计与技术规范,推出国产化版本仿人机械臂,核心优势为高负载、高灵活性与高性价比,定价3.99万元起 [1] 技术合作与生产优化 - 日本OpenArm团队提供开源体系、结构标准及相关技术建议,未来动力团队在VLA模型、大规模真实数据采集等技术上积累丰富经验 [2] - 公司在国产化设计、制造与性能优化以及机器人稳定性上反复打磨,并采用日本OpenArm研发体系的品控要求组织流程,使产品在结构精度、动作一致性及安全性达国际水准 [2] - 针对关键部件用材、线束插口、材质、控制精度和装配一致性完成多项工程化改进,在机器人研发、教育科研、数据采集、家庭及工业场景展现稳定可靠表现 [2] 产品性能突破 - 采用7个基础自由度+1个夹爪自由度设计,单臂总自由度达8 DOF,双臂总自由度可达16 DOF,完整复刻人类上肢运动轨迹 [4][6] - 单臂峰值负载可达6kg,双臂更可负载12kg,在保持灵活轻量同时稳定完成高精度抓取与操作任务 [6] - 通过仿生运动学建模与高顺应性控制策略实现类人运动自然复现,具备冗余运动能力,使动作更流畅、更具意图表达性,为远程操控、模仿学习与人机共融研究提供基础 [8] 应用场景与数据价值 - 类人构型优势在遥操作与数据采集场景中显著提升动作可预测性与数据质量,在动作建模、技能迁移、模仿学习等实验中保证采集数据真实性与一致性 [8] - 能稳定完成拧螺丝、倒水、组装零件等复杂精细任务,在人机共融共享空间中进行自然交互,为物理AI研究和智能体训练提供高质量数据支撑 [8] 成本优势与供应链 - 产品定价3.99万元起(含夹爪),显著降低准入门槛,体现科研级性能、产品级价格 [10] - 低成本高性能得益于日本OpenArm团队提供完整设计标准与生产监督,确保符合日本严格品质控制体系,未来动力负责前沿算法、工程优化及本土量产落地 [10] 结构设计与性能优化 - 量产过程中进行系统性性能优化,包括线束重构、结构轻量化与装配一致性提升 [12] - 关键受力部位使用高强度钣金与CNC机械加工确保刚性,非承重部分采用轻量化工程塑料降低自重与制造成本,平衡强度、灵活性与能效表现 [12] 生态拓展与未来规划 - 设计多种拓展与升级方案,用户可按需扩展远程操控、VR遥操作、双臂协作等功能模块,无需购买十万元级封闭算法包即可解锁高阶能力 [14] - 硬件+软件一体化开放设计降低高端功能使用门槛,支持从入门级科研教学到高级智能体训练的平滑升级,实现一次购入长期演进的持续价值 [14] - 计划为平台适配视觉-语言-动作模型与模仿学习算法、VR遥操作及远程控制,拓展应用场景落地、人机交互与现实世界数据采集的应用边界 [14] 团队背景与能力 - 核心成员来自香港科技大学、苏黎世联邦理工学院、南方科技大学、香港理工大学等高校,并拥有字节跳动、大疆、比亚迪等行业头部企业研发经验 [16] - 团队具备从算法到整机的全栈开发与系统集成能力 [16] 市场推广与销售 - 公司与日本OpenArm团队将于2025年10月21日至23日在机器人顶级会议IROS 2025杭州站进行实机展示,包括现场动作演示、远程操控体验及技术讲解 [17] - 目前已开启开放售卖,首批限购300台,先下单先安排,超出订单量后不接收,团队可提供场景化与功能化定制 [18]
VLA2:浙大x西湖大学提出智能体化VLA框架,操作泛化能力大幅提升
具身智能之心· 2025-10-24 00:40
文章核心观点 - 提出视觉-语言-动作智能体VLA² 通过调用多样化工具来增强VLA系统能力 旨在解决现有模型在处理完全陌生概念指令时无法迁移操作经验的问题 [1] - VLA²作为系统级集成框架 能够整合任务规划、网络搜索、目标检测等功能模块 从而突破现有VLA模型的执行能力边界 [1] 方法概述 - VLA²包含三大核心模块:初步信息处理、认知与记忆以及核心模块 [3] - 使用GLM-4V进行任务分解 将复杂指令拆解为可执行的子任务序列 [4] - 利用微调后的MM-GroundingDINO进行目标检测 提取物体与位置的边界框 [4] - 通过视觉路径对未知物体进行网页图像检索 生成关键词并构建视觉记忆 辅助模型重新识别 [4] - 通过语言路径将任务中未见的物体名称替换为模型已知的词汇 实现语义对齐 [4] 核心模块与实验验证 - 在原始的LIBERO Benchmark上 VLA²与SOTA的VLA模型进行对比 在Class 2类别中平均成功率为80.1% 略高于OpenVLA的76.5% [6] - 基于LIBERO环境通过更改物体纹理构建三个难度递增测试场景:Easy仅改变物体颜色、Medium替换为数据集中未出现的物体、Hard引入全新物体如茅台酒瓶和青花瓷碗 [7][10] - 在Hard场景中VLA²成功率大幅领先所有其他SOTA模型 达到76.2% 相比于单纯微调OpenVLA的32.0% 取得了44.2%的优势 [9] - 对VLA²三大关键机制进行消融实验 结果显示视觉掩码注入、语义替换机制和网页检索增强均对模型性能有显著贡献 [11] 总结与展望 - VLA²通过引入外部工具与记忆机制 成功扩展了VLA模型对未知物体的认知与操作能力 为开放世界中的机器人操作任务提供了可行的系统级解决方案 [12] - 未来将进一步探索其在真实世界中的泛化能力 并扩展其支持更多类型的工具与任务 [12]