具身智能之心

搜索文档
ReconVLA:基于重建式VLA模型的机器人感知方法
具身智能之心· 2025-08-29 16:03
视觉-语言-动作模型技术突破 - 提出重建式视觉-语言-动作模型ReconVLA 通过目标区域重建任务实现隐式视觉定位 显著提升机器人操控精度[3][8][14] - 核心创新在于引入扩散变换器进行高保真区域重建 迫使模型将注意力像聚光灯般聚焦关键物体[3][11][16] - 在CALVIN长时序任务中首任务成功率接近95% 平均完成子任务数达3.95个[9][20][21] 技术实现架构 - 采用双分支协同架构:视觉重建分支负责目标区域编码与重建 动作预测分支生成离散动作token驱动机械臂[13] - 利用冻结视觉tokenizer将凝视区域编码为潜在token 保留细粒度视觉信息[3][13] - 通过联合优化重建损失与动作预测损失 增强视觉表示可迁移性与鲁棒性[13][19] 数据集与预训练 - 构建包含10万条轨迹、200万样本的大规模预训练数据集 聚合BridgeData V2、LIBERO、CALVIN等多个开源数据集[8][19] - 采用自动化标注流程 利用微调Grounding DINO自动分割指令对应的凝视区域图像[8][19] - 消融实验表明大规模预训练使模型在CALVIN任务成功率从88.8%提升至95.6%[19][20] 性能表现对比 - 在ABCD→D长时程任务中以70.5%成功率完成全部5个子任务 平均完成4.23个子任务 显著优于主流方案[21][22] - 对比显式定位与思维链定位范式 隐式定位在保持端到端训练优势的同时避免坐标回归困难[10][11] - 真实机器人测试中 对未见物体任务保持40%以上成功率 远超OpenVLA和PD-VLA的近乎零成功率[25][26] 实际应用验证 - 在六自由度机械臂平台上执行叠放碗具、水果放置、翻转杯子、清理餐桌等任务 成功率高达90%[25] - 视觉系统采用双深度相机配置:底座视角RealSense D515和末端执行器视角ORBBEC Dabai[25] - 注意力热图显示模型能动态调整凝视区域 在干扰物多的场景中精准锁定目标物体[4][9]
OpenHelix 团队新作!Long-VLA:深入探究端到端VLA模型的长时瓶颈和有效解决方案
具身智能之心· 2025-08-29 05:02
文章核心观点 - Long-VLA是首个针对机器人长时任务设计的端到端视觉语言动作模型 通过引入阶段感知输入掩码机制动态调整视觉模态输入 有效解决技能链问题 在仿真和真实环境中均显著超越现有方法[2][3][4] 技术背景与创新点 - 现有VLA模型在长时任务中效果大幅下降 主要由于子任务衔接不稳定导致误差累积[2] - 传统方法分为三类:端到端统一模型(短时任务有效但长时表现不佳)、任务分解方法(缺乏协调导致状态漂移)、输入适配模块化方法(与VLA统一范式冲突)[3] - Long-VLA核心创新在于将子任务划分为移动阶段(关注全局空间线索)和交互阶段(聚焦局部精细感知) 通过二进制掩码动态调整相机视角输入[2][6][7] 模型架构 - 采用统一端到端训练架构 保持VLA大规模扩展优势[4][6] - 重新标注形成L-CALVIN数据集 每条轨迹带有明确阶段切分点[6] - 通过条件扩散模型生成动作序列 保持输入结构一致性[7] 性能表现 **仿真环境(L-CALVIN)** - D→D场景:在10项连续任务中完成率从基准策略的0.11提升至0.20(81%提升)[10] - ABCD→D场景:第10项任务完成率达0.56 较基准策略0.45提升25%[10] - 子任务完成率普遍提升15%-42% 最高提升出现在第9项任务(100%从0.13至0.26)[10] **真实场景** - 在Sorting和Cleaning任务中 面对随机位置/光照变化/视觉干扰均显著优于基线[10] - 平均任务长度:基于HULC从2.65提升至3.30(0.65提升) 基于MDT从4.11提升至4.81(0.7提升)[12] 技术意义 - 首次实现端到端训练与长时适应性平衡 为机器人长时任务提供新基准[13] - 不依赖在线奖励信号 更契合离线大规模训练范式[4] - 避免模块化方法的数据切割问题 保持统一架构优势[4][6]
四足机械狗+单臂,低成本开启你的具身学习之旅
具身智能之心· 2025-08-29 04:00
产品定位与核心功能 - Xdog是一款低成本多功能四足机械狗与机械臂集成开发平台 专为具身智能开发者设计 涵盖机器狗二次开发、仿真强化学习及sim2real迁移部署等技术栈 [1] - 平台已实现语音控制、目标识别与跟踪、机械臂自主抓取、强化学习步态控制等核心功能 覆盖具身智能下肢控制大部分技术模块 [2] - 系统基于ROS1开发 支持TCP语音控制、键盘控制、视觉控制及强化自主运动等多种交互方式 [2][15] 硬件配置参数 - 机械狗主体尺寸25cm×20cm×30cm 重7kg 采用Allwinner H616主控芯片(4核1.6GHz) 配备4G内存与32G存储 [3][4][11] - 单腿3自由度 采用连杆传动 支持WIFI/蓝牙通信 配备千兆以太网/USB2.0/Micro-USB等开发接口 [5] - 电池能量93.24Wh 综合续航120分钟 最大前进速度7.2公里/小时 最大旋转速度450度/秒 [5][11] - 机械臂采用20KG总线舵机 配备9-12.6V驱动板及12V/7A电源适配器 抓取范围0.4m(基座周围) 正上方极限抓取高度0.85m [6][7][12] 感知与视觉系统 - 深度相机采用主动双目红外+结构光技术 深度输出分辨率1280×800@30fps 工作距离0.2-10m(最佳精度0.2-4m) [14] - 深度精度达0.5mm(@0.5m)/1.0mm(@1.0m)/5.0mm(@2.0m) RGB摄像头支持1080p@30fps全局快门 [14] - 支持USB 3.0 Type-C接口 兼容Windows/Linux/Android系统 提供Orbbec SDK/OpenNI 2/ROS驱动包 [14] 软件与开发支持 - 开发语言以Python为主 推荐使用2080ti及以上GPU及i7以上CPU进行推理和二次开发 [16][24] - 集成主流大模型实现低延迟高准确性语音交互 支持sim2real与real2sim双向迁移 具备MuJoCo仿真环境映射能力 [17][18] - 提供目标识别算法实现机械臂与机械狗协同跟随 支持ACT模仿学习框架及强化学习步态控制 [19][20][21] 课程体系与技术支持 - 课程包含即插即用系统配置、ROS基础、MuJoCo仿真、IsaacGym环境部署、强化学习算法(PPO/DreamWaQ)、YOLO目标识别等26个模块 [22][23] - 教学团队由5名专家组成 涵盖硬件设计、视觉算法、强化学习等专业领域 包括港大博士生提供技术支持 [22] - 交付周期为付款后3周内 提供1年售后服务期 视频与源码在硬件确认收货后立即提供 [25][26]
具身智能之心人形机器人交流群成立啦~
具身智能之心· 2025-08-29 04:00
行业交流平台 - 具身智能和人形机器人领域建立专业交流群 促进技术合作与信息共享 [1] - 交流群面向人形运控 VLA模型 数据采集 硬件开发等相关技术方向的专业人士 [1] - 加入需通过微信助理审核 备注昵称和人形关键词方可获得入群资格 [2]
Long-VLA:西湖大学与阿里达摩院联合打造,全球首个支持长周期操作的端到端VLA模型
具身智能之心· 2025-08-29 04:00
技术背景与问题识别 - 视觉语言动作模型(VLA)利用大规模多模态数据成为机器人学习重要方法 但在多任务连续执行时效果显著下降 主要由于子任务衔接不稳定导致误差累积[2] - 现有技术分为三类:端到端统一模型在短时任务高效但长时任务表现不佳 任务分解方法缺乏子任务协调导致状态漂移 模块化方法与VLA统一学习范式冲突难以扩展[3] 核心创新与方法论 - 提出首个针对长时任务的端到端VLA模型Long-VLA 引入阶段感知输入掩码机制 将子任务划分为移动阶段和交互阶段[2] - 通过二进制掩码动态调整视觉模态输入:移动阶段屏蔽机械臂相机视角关注全局空间线索 交互阶段屏蔽静态全局相机视角聚焦局部精细感知[6] - 在统一架构内实现任务分解优势 保持端到端特性避免数据切割和训练碎片化 同时解决子任务衔接问题[4][6] 实验验证与性能表现 - 在优化后的L-CALVIN模拟环境中 任务长度提升至连续十个子任务 Long-VLA在D→D与ABCD→D场景均显著超越基线[8] - 真实场景测试显示 在Sorting和Cleaning两类长时任务中 随机位置、光照变化和视觉干扰条件下均显著优于基线[10] - 平均任务长度提升显著:在HULC基线上从2.65提升至3.30(增加0.65) 在MDT基线上从4.11提升至4.81(增加0.7)[13] 技术普适性与行业影响 - 该方法对HULC、MDT等其他方法具有普适性 可简单迁移到其他模型中 证明实际应用价值[12] - 首次实现端到端训练和长时适应性平衡 为机器人长时任务执行奠定基础 促进实际应用落地[14]
今晚直播|星海图 X Hugging Face!开源生态如何引领具身智能的未来?
具身智能之心· 2025-08-29 00:05
开源生态与具身智能发展 - 开源生态通过开发者社区和开放数据集加速具身智能技术落地 [1] - Hugging Face与星海图合作探索开源模型与开放世界数据集 [1] - 行业伙伴包括百度风投、知乎、小红书科技等共同参与生态建设 [2] 行业合作与活动 - Hugging Face联合创始人Thomas Wolf与星海图首席科学家赵行将进行深度对谈 [3][9] - 直播主题为开源生态如何引领具身智能未来 [6] - 活动时间为8月29日19:00 [4][10]
传统SLAM的定位导航和具身目标导航有什么区别?
具身智能之心· 2025-08-29 00:03
目标驱动导航技术概述 - 具身导航的核心领域涉及语言理解、环境感知和路径规划三大技术支柱 [2] - 目标驱动导航是具身导航中最具代表性的方向 通过赋予机器人自主决策能力 [2] - 要求智能体在陌生三维环境中仅凭目标描述即可自主完成环境探索与路径规划 [2] 技术实现原理 - 系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁 [2] - 需自主完成语义解析 环境建模以及动态决策 [2] - 背后凝聚计算机视觉 强化学习与3D语义理解的交叉突破 [2] 产业化应用现状 - 在终端配送场景中与社交导航算法结合 使机器人具备应对动态环境和人际交互能力 [3] - 美团无人配送车通过动态路径重规划在复杂城市环境中执行递送任务 [3] - Starship Technologies的园区配送机器人已在欧美高校和社区部署 [3] - 医疗 酒店及餐饮场景中 嘉楠科技 云迹科技 擎朗智能的商用服务机器人已实现药品 文件和餐食的自主配送 [3] - 美国Aethon公司的TUG系列有效提升服务响应效率 [3] 人形机器人适配升级 - 宇树科技Unitree系列通过Habitat预训练完成基础导航任务 [3] - 智元机器人在工业场景中集成目标驱动导航模块 [3] - 特斯拉Optimus展示"取放电池"等端到端操作能力 [3] - 搭载目标驱动导航系统的人形机器人正加速向家庭服务 护理及工业物流领域渗透 [3] 技术发展历程 - 基于Habitat仿真的具身导航生态完整记录领域技术迭代轨迹 [4] - 自2020年CVPR提出点导航基准以来 评测体系逐步扩展至图像导航 目标导航及移动抓取任务 [4] - 形成覆盖空间认知到任务执行的闭环 [4] 关键技术突破 - 视觉预训练模型提升特征泛化能力 [4] - 分布式强化学习框架使PointNav任务SPL指标显著提升 [4] - 大语言模型通过跨模态对齐解决部分开放词汇导航难题 [4] 当前技术梯度 - PointNav和闭集ObjectNav接近人类表现 [4] - 开放词汇物体导航和动态障碍物场景仍面临重大挑战 [4] - Meta AI提出的Sim2Real迁移框架为仿真训练到真实部署提供方法论参考 [4] - CMU与Stanford等机构持续推动动态环境下的语义地图更新技术 [4] 第一代端到端方法 - 基于强化学习与模仿学习框架 [5] - 设计网络结构以对齐目标描述与实时观测 [5] - 优化奖励函数与监督信号设计加速模型收敛 [5] - 增强数据多样性以提升泛化能力 [5] - 在点导航与闭集图片导航任务中取得突破性进展 [5] - 部分方法的SPL指标已逼近人类表现 [5] 第二代模块化方法 - 通过显式构建语义地图将任务分解为自主探索与目标定位两个子任务 [7] - 探索阶段依赖先验导航规则生成候选路径 [7] - 匹配阶段利用预训练视觉语言模型实现跨模态语义对齐 [7] - 在零样本目标导航任务中展现显著优势 [7] - 在未见物体场景下成功率提升明显 [7] 第三代LLM/VLM融合方法 - 引入大语言模型的知识推理能力 [9] - 在探索阶段生成语义指导的探索策略 [9] - 通过视觉语言模型的跨模态对齐能力提升开放词汇目标匹配精度 [9] - 当前研究重点在于设计场景表征接口 [9] - 将3D环境特征转化为LLM可解析的上下文格式 [9] - 在开放词汇目标导航任务中实现对未知类别的有效识别 [9]
FlowVLA:破解 VLA 模型 “物理失真” 难题,机器人世界建模再升级
具身智能之心· 2025-08-29 00:03
核心观点 - FlowVLA模型通过视觉思维链(Visual CoT)原则解决传统VLA世界模型的根本缺陷,将动态运动与静态外观解耦,显著提升长时程预测的物理合理性和下游任务样本效率 [1][8][36] - 模型在单自回归Transformer中统一外观与运动推理,采用"帧→光流→帧"的两阶段结构化预测流程,避免像素复制陷阱并增强物理动态理解 [9][12][14] - 实验验证显示,FlowVLA在LIBERO和SimplerEnv基准测试中达到最先进性能,长时程任务成功率提升显著,低数据场景下样本效率优势达55% [20][22][30] 技术架构创新 - 引入视觉思维链(Visual CoT)原则,强制模型先预测中间光流编码运动动态,再基于光流生成未来帧,实现动态与外观学习的解耦 [8][12][14] - 采用共享分词方案,将2通道光流场转换为RGB类图像,通过相同VQ-GAN分词器处理光流与原始帧,保持参数效率和架构简洁性 [9][15] - 两阶段训练范式:预训练阶段从无动作视频学习通用物理规律,微调阶段适配机器人控制任务,损失函数仅针对动作令牌计算 [15][16][19] 性能表现 - LIBERO数据集平均成功率88.1%,超越所有对比模型,其中长时程任务成功率72.6%较基线提升显著 [20][21] - SimplerEnv数据集平均成功率74.0%,在视觉偏移场景(如堆叠积木任务62.5%)表现优异,验证对真实环境变化的强适应性 [22][23] - 低数据场景下峰值成功率比基线高55%,仅用1000训练步数即超越基线峰值性能,样本效率优势显著 [30][32] 关键组件验证 - 消融实验显示:移除Visual CoT结构使成功率下降至64.0%,移除光流监督降至69.5%,证明核心设计必要性 [33][34] - 定性分析表明FlowVLA预测结果符合物理规律(无机械臂消失或物体运动异常),且与语言指令语义对齐 [24][26][29] - 统一分词方案和交错序列格式贡献49.4%基础性能,分组序列结构对整体效果有关键影响 [33][34] 行业价值定位 - 突破传统VLA模型端到端学习局限,提供动态优先的世界模型构建范式,为通用机器人开发奠定物理推理基础 [35][36] - 解决预训练被动观测知识与策略学习主动控制知识的领域差距,显著降低下游任务微调成本和收敛时间 [7][10][30] - 光流预测提供任务无关的低层物理理解,可作为高层控制基础,弥补现有具身推理方法在物理动态建模方面的不足 [35][36]
对话逐际动力张巍:造机器人很容易,关键是用起来
具身智能之心· 2025-08-29 00:03
编辑丨量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 "让天下没有难落地的机器人。" 在这样向量子位表达定位和使命后,逐际动力"解释了"为何会成为阿里投资的第一家具身智能机器人公司。 在这样解释定位和使命后,量子位大概感受到了逐际动力被投资的原因—— 至少是成为阿里第一个具身智能投资项目的原因。 实际上,之前更多的时候, 逐际动力创始人张巍 更倾向于用"英伟达"来类比,因为英伟达提供了一个底层平台,可以让游戏、汽车、机器人 等等不同领域的创新,成为可能。 逐际动力的创办和发展,也希望成为这样的平台——提供机器人平台,然后各个领域的开发者可以进一步打造应用方案和产品。 张巍说,"人形机器人的本体硬件制造非常容易,比造飞机、造汽车都要容易。" 真正阻碍机器人落地的是——大脑,而如何让机器人控得很好 ——是 小脑AI化的能力 。 在与量子位的访谈中,张巍从头说起,共识的和非共识的、逐际动力的或者是具身智能行业的……这次都几乎"讲完了"。 如果你想知道 ...
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-28 08:36
具身智能技术社群成立 - 行业成立具身智能之心技术交流群 重点关注视觉语言导航 视觉语言动作 遥操作 扩散策略 强化学习 仿真到现实迁移 多模态大模型 运动控制 目标导航 建图定位等技术方向[1] - 行业社群面向机构及学校研究人员开放 需通过指定联系方式备注机构名称 个人姓名及研究方向完成入群申请[2][3]