Workflow
具身智能之心
icon
搜索文档
一个近2000人的具身社区,给出了这样的答案~
具身智能之心· 2025-09-28 01:05
社区运营与近期动态 - 社区运营者长期在线处理用户问题,近期正推进硬件方案测试开发以解决用户反馈的硬件贵、不好用等问题 [1][2] - 社区致力于完善体系、整理内容,计划在节后呈现更完善的社区内容 [2] - 社区收到多所高校具身方向的招生需求,并为用户提供2026年升学、工作内推及辅导服务 [2] - 社区在国庆和中秋节期间推出今年最大优惠券以吸引新成员 [3] 社区资源与技术内容体系 - 社区已完成产业、学术、求职、问答交流等多个领域的闭环,提供前沿研究解决方案和求职岗位对接 [5] - 社区内部梳理了超过30种技术路线,涵盖benchmark、综述和入门路线,以缩短用户检索时间 [6] - 社区邀请了数十位活跃于产业界和工业界的一线专家作为嘉宾,为用户提供答疑解惑服务 [6] - 社区定期举办圆桌论坛和直播,内容覆盖本体、数据、算法等多个具身行业核心议题 [6] - 社区汇总了超过40个开源项目、近60个具身智能相关数据集以及行业主流仿真平台 [13] - 社区提供了包括具身智能感知、交互、强化学习、VLA、大模型部署等超过20个技术方向的学习路线 [13][14][39][42][54][62] 社区成员与合作伙伴 - 社区成员来自斯坦福大学、清华大学、上海交大等国内外知名高校,以及智元机器人、优必选、小米等头部机器人公司 [13] - 社区与近2000名用户和200家具身公司及机构建立联系,共同交流产业、学术和工程落地话题 [80] - 社区与多家具身公司建立了岗位内推机制,可第一时间将用户简历推荐至心仪公司 [7] 社区特色福利与内容模块 - 社区汇总了国内外具身智能高校和公司信息,涵盖教育、宠物、工业、医疗等多个方向 [16][19] - 社区提供大模型、人形机器人等行业研报,帮助用户了解行业发展与工业落地情况 [21][22] - 社区汇总了机器人导航、动力学、运动学等方向的PDF书籍,供用户进行基础学习 [24][25] - 社区整理了机器人行业知名零部件制造厂商信息,涉及芯片、激光雷达、相机等关键部件 [27] - 社区针对机器人仿真、抓取、控制等领域的开源项目进行了汇总,助力用户快速上手 [29] - 社区提供了包括ToF与3D相机、数据采集方案、多模态数据集等专项技术资源汇总 [31][33][35]
仿真专场!一文尽览神经渲染(NERF/3DGS)技术在具身仿真框架Isaac Sim中的实现
具身智能之心· 2025-09-28 01:05
神经渲染技术在仿真领域的应用 - 神经渲染技术(NERF/3DGS)通过神经网络表达空间,在新视角合成方面表现优越,直击辅助驾驶和具身智能仿真中传感器仿真的痛点,可解决传统计算机图形学渲染图像缺乏真实性的问题,广泛应用于算法闭环测试和训练 [3] - 现有研究围绕NERF和3DGS技术开发面向闭环测试的仿真框架,但完全新开发仿真框架工作量巨大,因此另一种思路是将训练好的NERF/3DGS模型嵌入现有仿真软件框架,以利用现有3D数字资产和算法接口工具链 [3] 技术集成与工具支持 - LumaAI的3DGS插件可将高斯点云ply插入基于Unreal的CARLA游戏引擎,而NVIDIA的Isaac Sim仿真软件也已支持神经渲染技术,允许插入3DGS模型 [4] - NVIDIA开源项目提出三维高斯渲染方法,可输出适用于Isaac Sim的usdz模型,3DGRUT工具支持将其他3DGS方法生成的高斯点云ply转化为usdz模型 [4] - 3DGRUT生成的usdz模型文件包含default.usda、gauss.usda等描述文件和nurec格式模型文件,可直接解压使用 [4] Isaac Sim中的操作流程 - Isaac Sim的神经渲染功能NuRec需5.0.0以上版本(Omniverse Kit 107.3以上),安装后可通过Content栏导航到usdz模型解压文件夹,将gauss.usda拖动或插入Stage,即可显示三维高斯模型 [5] - 导入的3DGRUT模型仅具备视觉特征,需通过2DGS等方法提取场景mesh(ply格式),并调整mesh的scale和位姿以匹配usdz渲染结果 [6][7] - 需将usdz模型与mesh绑定,在gauss的Property中选择Raw USD Properties,找到proxy并添加Target,选择mesh对象,最后勾选omni:nurec:useProxyTransform特性以实现对齐 [7] 物理属性与交互功能 - 需为mesh添加物理属性,右键选择mesh,在Add中选择Physics->Collider,以增加碰撞属性,避免物体穿透问题 [8] - 在mesh的Property中勾选Matte Object,配合DomeLight光照实现光影交互效果,同时可添加OmniPBR材料并将Reflectivity中的Specular降至最低,减少不必要的反光 [8] - 添加Rigid Body with Colliders Preset属性后,可进一步设置质量等物理属性,使模型与仿真环境中的其他物体(如球体、地面)产生碰撞交互 [14] 动态物体与场景构建 - 通过3DGS方法训练场景(如mipnerf360的kitchen),使用在线工具编辑ply文件提取特定物体(如乐高推土机),再经3DGRUT转化为usdz模型,可实现动态物体导入 [11][13] - 将动态物体(如推土机)放入其他神经渲染场景(如garden或room),可实现模型间及模型与原生物体的动态交互,显存占用较低,在3090显卡上fps表现良好 [15][17] 未解决的问题与挑战 - 神经渲染模型间的光影交互关系尚未完全解决,例如推土机未在神经渲染背景中投下阴影 [18] - 仿真环境测试具体算法的效果尚未探究,例如在room环境中让VLA算法执行"捡起地毯上的乐高推土机"指令的可行性 [19] - 需解决如何快速提供rgb图像外的真值信息(如图像分割、对象标注标签),以及如何获取动态物体的物理属性真值(如硬度、摩擦系数、质量) [19] - 需进一步提升计算效率,以支持更大规模神经渲染场景和更多对象的实时仿真 [19]
首款推理具身模型,谷歌DeepMind造!打破一机一训,零样本迁移
具身智能之心· 2025-09-28 01:05
产品发布与定位 - 谷歌DeepMind正式发布新一代通用机器人基座模型Gemini Robotics 1.5系列 成为全球首个具备模拟推理能力的具身模型[3][5] - 该系列由两大模型组成:GR 1.5负责动作执行的多模态大模型 GR-ER 1.5强化推理能力并提供规划与理解支持[4][6] - 两大模型协同工作 其中GR-ER 1.5不执行实际操作 而GR 1.5专为执行层设计 两者结合实现"先思考再行动"的完整闭环[6][7][37] 技术能力与创新 - 模型具备执行复杂长程任务能力 可将多步任务分解为多个阶段并逐一完成 例如分拣深浅色衣物或根据天气打包行李[7][11][13] - 引入全新Motion Transfer机制 将不同机器人平台的运动轨迹映射到统一动作语义空间 实现零样本跨平台技能迁移[9][19][46] - 在230项任务基准测试中 模型在指令泛化、动作泛化、视觉泛化和任务泛化四个维度表现优异 明显优于前代模型[58] - 长时序任务完成进度分数最高接近80% 几乎是单一VLA模型的两倍[59] - 在ASIMOV-2.0安全基准中展现出更高风险识别与干预能力 能够理解物理风险并触发保护机制[61] 应用场景与性能 - 可驱动多种机器人硬件包括低成本双臂机器人ALOHA、工业级Franka和人形机器人Apollo 实现丝滑无缝迁移[16][17] - 能够根据特定要求自主上网搜索信息 例如根据不同城市的垃圾分类标准帮助完成分类任务[8] - 具备自我检测与修正能力 在操作失败时可立即转换方案 例如抓取水瓶失败后改用另一只手完成[31] - 能识别潜在风险并避免危险动作 确保在人类环境中的运行安全性[32] 技术架构与数据 - 两款模型均基于Gemini基础模型构建 并使用适应物理空间操作的数据进行微调[34] - GR 1.5作为执行者 直接将自然语言和视觉输入转化为低层级机器人动作[35] - GR-ER 1.5作为大脑指挥官 负责理解复杂任务、做出高层规划并调用外部工具及监控进度[36] - 训练数据包括真实机器人在ALOHA、Franka、Apollo等平台完成的成千上万种操作数据 以及互联网中的文本、图像与视频信息[39][40] - 约90%以上的迭代在MuJoCo仿真环境中完成 显著提升研发效率并保证现实硬件执行的稳定性与安全性[47][48] 行业影响与定位 - 该模型代表谷歌将通用AI推向现实世界的重要里程碑 使机器人从执行单一指令转向对物理任务进行真正理解和解决问题[10][64] - 在学术基准测试中 GR-ER 1.5在空间推理、复杂指点和进度检测等任务上全面超越GPT-5和Gemini 2.5 Flash[56] - 具备显性思考能力 行动前会用自然语言拆解复杂任务 提升可解释性和信任感[24][25][51]
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
具身智能之心· 2025-09-27 01:33
文章核心观点 - 视觉-语言-动作模型是实现机器人复杂环境灵活操作的关键,但现有训练范式存在数据采集成本高和泛化能力不足等核心瓶颈 [2][3] - SimpleVLA-RL作为一种新型端到端在线训练方案,通过交互式轨迹采样、结果奖励建模和探索增强等设计,有效解决了VLA模型训练的三大瓶颈 [4][6][14] - 该框架在多项基准测试中刷新了性能纪录,显著提升了数据效率和模型泛化能力,并展现出自主探索新策略的现象,为VLA模型的高效训练开辟了新路径 [6][9][21] VLA模型训练面临的挑战 - 主流训练流程依赖大规模预训练和有监督微调,但高质量机器人操作轨迹的数据采集成本高昂,从根本上制约了模型的可扩展性 [11] - 有监督微调的学习过程高度依赖特定数据分布,导致模型在面对分布外任务、新环境或未见对象时性能显著下降,尤其在长时序依赖任务中更为明显 [12] - 将强化学习直接应用于VLA训练面临独特挑战,包括传统RL依赖难以扩展的人工设计过程奖励,以及VLA训练需要与物理环境进行多轮交互导致效率低下和成本高昂 [12] SimpleVLA-RL框架的核心设计 - 采用交互式轨迹采样机制,模型直接输出动作token的概率分布并通过随机采样生成多样轨迹,在闭环中不断更新视觉观测和机器人状态直至任务完成 [15] - 使用极简的二元结果奖励建模,将任务成功记为1、失败记为0的奖励均匀分摊到整个轨迹的动作token上,避免了过程奖励的不可迁移性和调参麻烦 [16] - 实施探索增强策略,通过动态采样保留部分成功和部分失败的轨迹组、扩大GRPO裁剪区间以及提高rollout采样温度,鼓励模型进行更多样化的探索 [17][18][19] - 对GRPO目标进行简化,移除了KL散度正则项并不再依赖参考模型,从而减少内存消耗并让新行为的探索不受束缚 [18] 基准测试性能表现 - 在LIBERO单臂操控基准测试中,SimpleVLA-RL将OpenVLA-OFT的平均成功率从91.0%提升至99.1%,其中长时序任务LIBERO-Long提升12.0个百分点至98.5% [23][24] - 在RoboTwin1.0双臂操控基准上,四个任务平均成功率从39.8%提升至70.4%,其中"Blocks Stack"任务提升33.1个百分点至40.2% [25][26] - 在覆盖短/中/长/超长时序12个任务的RoboTwin2.0高多样性双臂基准中,平均成功率从38.3%提升至68.8%,超越π₀和RDT等对比模型 [27][28] - 在"单轨迹SFT"场景下,应用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率从48.9%提升至96.9%,长时序任务LIBERO-Long从17.3%提升至91.7% [6] 泛化能力与真实世界部署 - 在LIBERO的"9个已见任务训练+1个未见任务测试"实验中,SimpleVLA-RL所有未见任务成功率均提升,其中LIBERO-Object的"Unseen Task 2"提升36.5个百分点,证明RL能学习通用技能而非过拟合特定数据 [29] - 仅使用仿真数据训练,在真实机械臂测试中,SimpleVLA-RL将平均成功率从17.5%提升至38.5%,"Stack Bowls"任务提升32个百分点至70.0%,证明RL能增强仿真模型的真实环境适配性 [30][31] 自主探索与新策略涌现 - 在RoboTwin 2.0任务中,经过SimpleVLA-RL训练的模型能够自主探索并发现更高效的替代策略,例如直接通过"推"的方式将罐子移至目标位置,研究团队将这种现象定义为"Pushcut" [32] - "Pushcut"现象的特征是模型能够突破人类演示模式限制,利用奖励信号探索并采纳演示外的路径,其本质在于结果奖励不约束具体动作模式,而是允许模型自主选择最优行为路径 [33][34]
具身智能之心国庆&中秋双节福利来啦~
具身智能之心· 2025-09-27 01:33
促销活动概览 - 公司于9月24日至10月12日期间推出国庆和中秋优惠活动 [1] - 活动涵盖知识星球、具身课程、硬件、论文辅导及超级折扣卡等多个产品线 [1] 知识星球优惠 - 具身智能之心知识星球新人加入可享7折优惠 [1] - 知识星球老学员续费可享5折优惠 [1] 具身课程优惠 - 多门课程包括VLA、VLN、Diffusion Policy、强化学习、仿真等均提供8折优惠 [2] - 购买超级折扣卡后,1年内所有课程可享7折优惠 [4] 论文辅导优惠 - 1对1论文辅导提供1000元最多可抵扣5000元的优惠 [4] - 1对6的VLA论文辅导提供立减1000元的优惠 [4] 硬件产品优惠 - 硬件产品线包括强化学习平台、具身机械臂(舵机版)和具身机械臂(电机版) [4] - 具体硬件产品包括全栈教研平台黑武士001、足式/强化学习科研平台TRON1以及桌面级机械臂科研平台 [7] 其他福利信息 - 大模型星球售价为99元一年,内容涵盖技术、行业及求职 [6] - 超级折扣卡售价为299元,可享自驾课程一年期七折优惠 [7] - 节后课程价格将再次上涨 [6]
ImaginationPolicy:迈向通用、精确、可靠的机器人操作端到端策略
具身智能之心· 2025-09-27 01:33
文章核心观点 - 研究提出了一种名为“移动定向关键点链”的新型机器人端到端操作方案,该方案以“可用性”为核心,通过任务特定的定向关键点来具象化操作,旨在解决现有端到端方法在可靠性、精度和泛化能力上的不足,实现对不同形状尺寸物体的自然泛化,并达到亚厘米级精度,同时支持多阶段任务、多模态行为与可变形物体操作 [2] 核心背景与问题提出 - 传统模块化机器人操作流水线存在模块间信息损失和特征错位等局限,而现有端到端神经网络方法在实际部署中的性能和可靠性甚至逊色于传统方法,尤其是在面对未见物体或不同机器人平台时泛化能力短板突出 [2] - 研究旨在填补“泛化潜力”与“实际性能需求”之间的差距 [2] 相关工作梳理 - 机器人抓取检测研究广泛,但多局限于单一任务,而提出的方法将其纳入统一动作表示框架,使其成为整体公式的一个特例 [3] - 基于可用性的机器人操作传统研究多适用于特定任务且仅能处理刚性物体,提出的方法则具有通用性,可覆盖多种操作技能并能直接处理可变形物体 [4] - 机器人操作的端到端学习现有方法动作表示多局限于末端执行器位姿或关节角度,提出的方法采用以可用性为基础的定向关键点表示,在泛化性与精度间取得更好平衡 [5] 核心方法:基于可用性的动作表示 - 定义了三种机器人控制权限:对自身末端执行器拥有完全6自由度控制权限;对抓取的刚性物体拥有受物理约束限制的完全6自由度控制权限;对抓取的可变形物体可对抓取的局部区域进行6自由度控制 [6][8][11] - 基础动作表示公式以场景观测和任务描述为输入,输出包含被操作物体、任务相关可用性帧和目标动作帧三部分信息 [9][12] - 该方法具有通用性,当将被操作物体固定为夹爪、可用性帧固定为夹爪TCP帧时,公式即退化为传统的末端执行器位姿动作表示 [14] 方法扩展:覆盖复杂场景 - 多阶段任务扩展:可从全局任务描述自动生成子任务,并结合场景观测动态调整,无需手动设置每个子任务的描述 [15] - 多动作候选扩展:通过分数匹配网络建模动作分布,实现对不同被操作物体或同一物体的不同可用性-动作帧对的多个候选动作的生成 [16][18] - 轨迹动作扩展:将单一动作帧扩展为SE(3)轨迹序列,以支持需连续运动的任务,如切水果和绘画,轨迹类型分为稀疏轨迹和密集轨迹 [19][21] 神经网络架构与实现 - 整体架构分为任务规划网络和动作预测网络两部分,形成端到端流水线 [22] - 任务规划网络微调Groma视觉-语言模型,输入RGBD图像和全局任务描述,输出子任务列表及需关注的环境区域 [24] - 动作预测网络采用Transformer架构,输入场景点云和子任务特征,输出所有子任务的可用性帧与动作帧,核心设计融合了点云特征、任务特征,并采用扩散模型思想进行动作分布建模 [25][27] - 机器人轨迹生成采用两种方式:仿真实验中使用学习型策略,真实世界实验中使用传统任务-运动规划算法 [27] 实验验证与结果分析 - 实验硬件采用6自由度机械臂、平行夹爪和RGBD传感器,任务覆盖四类典型操作场景,需适配不同形状尺寸物体与动态环境 [27] - 动作分布分析结果显示:在稀疏动作分布任务中,挂杯子的平移误差为6.4毫米、旋转误差为5.91度,插电缆的平移误差为8.1毫米、旋转误差为6.53度;在密集动作分布任务中,抓取位姿检测的有效动作比例为86.7%,稳定放置的有效动作比例为83.5% [29][31] - 整体任务成功率:挂杯子任务为91/100,电缆插入任务为87/100,稳定放置任务为95/100 [32][36] - 主要失败模式源于任务规划网络检测失败和机械臂可达性限制 [33][35]
这个具身智能领域的黄埔军校,正在做这些事情......
具身智能之心· 2025-09-26 10:42
社区运营与近期动态 - 社区运营者长期在线处理用户问题,近期正推进硬件方案优化、具身产品测试开发及社区体系完善[1][2] - 计划在假期后呈现更好的社区内容,并已收到多所高校在具身方向的招生需求,提供RA、博士、博士后等职位内推服务[2] - 社区致力于打造超大具身与机器人社区,在求职、升学等关键节点提供帮助,并持续进行产品优化和更新[2] 社区内容与资源体系 - 社区已完成产业、学术、求职、问答交流等多个领域的闭环,提供前沿研究思路和求职岗位对接[5] - 内部梳理了超过30种技术路线,并邀请数十位一线产业界和工业界嘉宾进行答疑解惑[6] - 社区汇总了近40个开源项目、近60个具身智能相关数据集及行业主流仿真平台,并提供多种技术学习路线[13][14] 技术专题覆盖范围 - 数据采集专题涵盖遥操作算法与硬件、RoboTwin 2.0数据生成器等内容[7] - VLA模型专题包括交错图文指令的VLA框架、BridgeVLA方案真机性能提升32%等关键技术[7] - 机器人模型专题涵盖人型机器人运动智能、Reason-RFT具身推理强化微调框架等[7] - 具身世界模型与空间智能专题包括跨实体世界模型、首个具身4D世界模型EnerVerse等[7] 会员福利与专属资源 - 会员可第一时间掌握具身智能学术进展和工业落地应用,与行业大佬交流工作与求职问题[17] - 社区汇总了国内外具身智能高校和公司,涉及教育、宠物、工业、救援等多个方向[16][19] - 提供机器人相关书籍PDF、具身智能零部件品牌、开源项目、ToF与3D相机等资源汇总[25][27][29][31] - 包含数据采集与开源数据、具身智能仿真平台、强化学习/VLA+RL等专项内容汇总[33][37][56]
好用,高性价比!面向具身科研领域打造的轻量级机械臂
具身智能之心· 2025-09-26 02:24
产品定位与核心价值 - 专为教育、科研与轻工业场景设计的轻量级机械臂,旨在解决具身科研领域高性价比硬件需求 [1][2][3] - 产品定位为低成本、高质量,可满足大多数从业人员和科研工作者进行论文验证与科研场景开发的需求 [2] - 融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调 [3][4] 核心性能参数 - 机械臂本体重量为4.2千克,额定负载为3千克,具备6个自由度,工作半径为612.5毫米 [6][18] - 重复定位精度达到±0.1毫米,关节运动最大速度最高为220度/秒 [6][18] - 供电电压为24V,通讯方式采用CAN,控制方式支持轨迹跟踪、示教和API [6][18] 软件开发与生态支持 - 提供全流程开源SDK与工具链,支持Python、C++等开发语言,并兼容ROS1和ROS2 [16][17][18][23] - 支持Gazebo等主流仿真环境与真机实时联动,用户可在仿真中验证算法后一键部署至物理设备 [16][20] - 提供从数据采集、模型训练到推理部署的全流程工具链,兼容TensorFlow、PyTorch等主流框架 [16][29] 附加组件与服务 - 提供多种末端执行器选项,重量在631克至704克之间,行程为0-80毫米,定位精度为±0.5毫米 [8][11][13][19] - 交付周期为1-2周,提供及时的售后响应,非人为损坏质保半年 [37] - 支持批量采购优惠,并提供基于本产品的项目开发与教学培训等服务 [18]
VLA这个方向的论文产出,是真的多......
具身智能之心· 2025-09-26 00:04
行业技术趋势 - VLA及其相关衍生方向在机器人与AI顶会中占据近一半的具身产出,重点关注长程操作、泛化、少样本、VLA+RL和人形机器人等领域[1] - VLA技术打破传统单任务局限,使机器人能在多样化场景中自主决策并灵活应对未见环境,广泛应用于制造业、物流和家庭服务[3] - 该模型已成为研究热点,推动pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA等多个前沿项目发展,促进学术界与工业界合作[3] 产业动态与竞争格局 - 国内外具身智能领域处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化[5] - 华为、京东、腾讯等科技巨头积极布局,与国外Tesla、Figure AI等公司共同推动领域发展[5] - VLA技术具有高度适应性,可应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人发展提供广泛潜力[3] 技术演进与核心挑战 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆,再到近期Diffusion Policy和多模态基础模型[8] - 前沿模型如RT-2、OpenVLA和PI0实现从视觉输入和语言指令到机器人动作的端到端映射,应用于复杂任务规划和执行[9] - 领域面临核心挑战包括跨域泛化、长期规划与世界模型构建,需将大型语言模型推理能力与机器人控制系统结合[9] 前沿研究方向 - 重点关注多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力等发展方向[9] - 研究如何突破"看得见但摸不着"、"只关注当下不能预测未来"等局限性,向通用机器人智能迈进[9] - 系统分析具身智能领域未解决难点,包括长期记忆、VLA+RL原子技能库构建、动作解码问题和多模态思维链等前沿方向[14]
RoboDexVLM:基于VLM分层架构的通用灵巧机器人操作
具身智能之心· 2025-09-26 00:04
技术框架概述 - RoboDexVLM是一个面向配备灵巧手的协作机械臂的创新性机器人任务规划与抓取检测框架 [2] - 该框架利用灵巧手抓取不同形状和尺寸物体的能力,并基于自然语言指令执行任务 [2] - 该框架是首个融合视觉语言模型的通用灵巧机器人操作框架,支持自然语言指令下的长序列任务规划与零样本抓取控制 [6] 核心技术组件 - 设计了一个具备任务级恢复机制的鲁棒任务规划器,利用视觉语言模型解析并执行开放词汇指令以完成长序列任务 [2] - 提出了一种基于机器人运动学和形式化方法的语言引导灵巧抓取感知算法,专为零样本灵巧操作而设计 [2] - 框架突破传统方法与端到端方法的局限,为具身智能与人机协作开辟新路径 [6] 功能特性与优势 - 支持语言即指令,让机器人听懂自然语言 [7] - 实现灵巧手操作,具备零样本抓取千奇百怪物体的能力 [7] - 利用视觉语言模型作为“大脑”,确保长程任务执行不迷路 [7] - 全面的实验结果验证了该框架在处理长时序场景和执行灵巧抓取方面的有效性、适应性和鲁棒性 [2] 应用与演示 - 框架展示了在复杂环境中运行的能力,以及在开放词汇灵巧操作方面的潜力 [2] - 直播将展示RoboDexVLM从理论到真实世界的实战表现 [7]