具身智能之心
搜索文档
ICCV 2025 | Mamba-3VL:单一模型攻克18类异构任务,重新定义具身智能大模型能力边界
具身智能之心· 2025-10-30 10:00
核心观点 - 清华大学、上海交大人工智能学院、腾讯ARC Lab、Anyverse Intelligence等机构联合提出通用具身大模型Mamba-3VL,该模型将状态空间模型Mamba引入3D视觉-语言学习,旨在解决具身智能的“任务适配性”难题,突破“单任务专精”局限 [2] - 模型通过三大核心方法创新,精准支持18类异构任务,从基础3D感知到高级具身交互全覆盖,系统性探索并刷新了具身模型的能力上限 [3] - Mamba-3VL在多个基准测试中刷新性能纪录,并展现出极强的泛化能力,仅需微调1%的LLM参数即可快速适配新任务,为低成本拓展任务边界提供了可能 [11][13] 核心方法创新 - **多模态 Mamba Mixer 模块**:创新设计“双扫描 + 通道扭曲”机制,通过关系优先空间扫描(融合近邻实例扫描NIS与远距实例扫描FIS)捕捉局部与长程空间关联,并通过通道扭曲实现视觉几何与语言语义的深度绑定,解决3D点云无序性问题并适配不同任务的模态交互需求 [5] - **实例感知动态位置编码(IDPA)**:实现“几何先验 + 语义调制”双驱动的动态位置编码,通过EdgeConv几何嵌入注入3D物体几何先验,并利用语言调制实例适配器(LISA)基于文本语义动态扭曲3D实例空间特征,提升异构任务适配灵活性 [6][9] - **统一查询解码框架与多任务输出头**:采用“统一输入-灵活输出”设计,将多种3D数据统一编码为实例查询,通过堆叠Mamba Mixer与IDPA层进行统一特征提取,并设计分割头、Grounding头、生成头三大通用输出头,实现无需修改架构即可适配不同类型任务 [6][9] 18类异构任务能力 - **3D视觉-语言基础理解任务(6类)**:包括单目标指代分割、多目标指代分割、边界框引导指代分割、单目标视觉Grounding、多目标视觉Grounding、3D密集描述生成,筑牢具身智能的感知与理解基石 [8][10] - **3D语言推理与问答任务(4类)**:包括基础3D问答、情境推理问答、多跳推理问答、3D场景对话生成,赋予具身智能逻辑思考能力 [9][10] - **3D实例分割任务(2类)**:包括闭集3D实例分割与开集3D实例分割,强化具身智能的精细感知能力,后者无需重新训练即可分割未见类别 [9][14] - **高级具身交互与规划任务(6类)**:包括任务规划、具身导航、机器人操作、3D场景对话交互、跨模态检索、开放场景适配任务,迈向能行动、会规划的实用具身智能 [11][14] 性能与效率突破 - 在ScanRefer数据集上,Unique指标达79.9%,Multiple指标达48.9%,超越PQ3D等SOTA模型 [15] - 在Scan2Cap密集描述任务中,Cider@25指标达91.2%,Cider@50指标达84.0%,生成描述更精准连贯 [15] - 在机器人操作与具身导航任务中,unseen任务成功率远超CLIPort、LEO等模型 [15] - 线性计算复杂度较Transformer模型效率提升显著,处理大规模3D场景时无性能衰减 [15] 行业意义与发展方向 - 研究打破了任务壁垒,证明具身模型可通过统一架构适配感知-理解-推理-交互全链路任务,无需为单一任务设计专属模块 [17][20] - 效率与性能兼得,为真实场景部署奠定基础,并首次系统性验证了具身模型处理18类异构任务的可行性,为探索百任务、千任务通用具身智能提供了蓝本 [17][20] - 相关技术可直接应用于机器人交互、自动驾驶场景理解、虚拟现实、智能家居控制等领域,推动具身智能从“单场景专精”迈向“全场景通用” [17][18]
具身智能之心交流群成立来!VLA/RL/导航/数采等多个方向
具身智能之心· 2025-10-30 10:00
文章核心观点 - 技术交流群成立旨在汇聚行业力量共同承担具身智能领域未来领导者的角色 [1] 技术交流群信息 - 交流群覆盖近20个具身智能子研究方向 [1] - 目标群体涉及人形机器人、四足机器人、机械臂等本体研发人员 [1] - 研究方向包括视觉语言导航、大模型、视觉语言交互、强化学习、移动操作、多模态感知、仿真及数据采集等 [1] - 邀请相关领域从业者加入群聊进行技术和行业交流 [1]
能部署ACT和pi0,专为具身领域打造的高性价比机械臂来啦!
具身智能之心· 2025-10-30 03:43
产品定位与目标客群 - 产品是专为具身智能科研领域打造的轻量级高性价比机械臂Imeta-Y1 [1] - 目标解决行业痛点:高端机械臂价格昂贵,低端产品难用且难上手 [2] - 主要面向学生、教育工作者及机器人领域初学者,旨在帮助其低成本、高效率完成算法验证与项目开发 [2] 核心产品优势 - 提供全流程开源工具链及代码示例,覆盖从数据采集到模型部署的全过程,对新手友好 [3][17] - 支持Python与C++双语言接口,并兼容ROS1与ROS2,提供URDF模型以实现仿真与真机无缝切换 [3][18][19] - 提供快速响应的售后支持,承诺24小时内响应 [3][19] - 采用开放软硬件架构,支持与Gazebo等主流仿真环境实时联动,降低开发风险与调试成本 [5][17][22] - 后期将持续升级,计划开放VLA、VA相关源码,新老客户均可享受升级服务 [19] 关键性能参数 - 机械臂本体重量为4.2千克,额定负载为3千克,具备6个自由度 [8][19] - 工作半径为612.5毫米,重复定位精度达到±0.1毫米 [8][19] - 供电电压为24V,采用PC作为控制器,通讯方式为CAN [8][19] - 关节运动最大速度:J1、J2、J3关节为180°/秒,J4、J5、J6关节为220°/秒 [8][19] 技术支持与开发生态 - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口及示例代码 [26] - 工具链支持视觉、力控等多模态数据融合,并兼容TensorFlow、PyTorch等主流AI框架 [17][32] - 目前已适配Intel RealSense D435系列及奥比中光DCW2等相机 [46] - 在硬件配置方面,适配的ALOHA ACT算法可在NVIDIA 4060显卡上进行训练与推理 [46] 交付与售后政策 - 产品交付周期为1至2周 [44] - 质保政策为非人为损坏提供半年质保,质保期后按市场价收取售后费用 [45] - 销售政策为单臂出售,不支持无理由退货或测试 [46]
近500页史上最全扩散模型修炼宝典,一书覆盖三大主流视角
具身智能之心· 2025-10-30 00:03
书籍概述 - 书籍《The Principles of Diffusion Models》由来自Sony AI、OpenAI和斯坦福大学的团队编写,旨在系统梳理扩散模型的发展脉络与核心思想,为研究者和初学者提供可靠指南 [5] - 该书长达460多页,以严密的数学推导贯穿始终,主要面向具备深度学习基础或深度生成建模初步认识的研究人员、研究生及从业者 [9] - 书籍通过统一的数学框架串联了变分、得分与流等多种视角,探讨了扩散模型如何工作、为何有效以及未来发展方向 [6] 扩散模型核心原理 - 扩散模型将生成过程视为一种随时间逐步演化的变换,通过多阶段推理将粗略结构细化为精致细节,与传统生成模型直接学习噪声到数据的映射不同 [12] - 该领域存在三种主要互补的理论框架:变分方法、基于得分的方法和基于流的方法,它们都包含正向过程(逐步加噪)和反向过程(逐步去噪) [12][22] - 这三种视角在数学上等价,共同构成了扩散建模的统一理论图景,并可与变分自编码器、能量模型和归一化流等经典生成建模方法联系起来 [17][23] 模型加速与可控生成 - 通过分类器引导和无分类器引导等方法,可以在生成过程中根据用户定义的目标或属性进行条件控制,实现偏好对齐,提升生成的可控性 [29] - 采用先进的数值求解器可以在更少的反向积分步骤中近似模拟扩散反过程,从而显著降低计算成本,同时保持生成质量,实现高效快速采样 [29] - 基于蒸馏的方法训练学生模型模仿教师扩散模型的行为,能以显著更少的积分步数(甚至单步)重现采样轨迹,从根本上提升生成速度 [30] 下一代生成模型发展 - 流图模型族(如一致性模型、一致性轨迹模型、平均流)的兴起正在塑造下一代生成式人工智能 [15] - 从零开始学习常微分方程的解映射(流映射)的框架,允许模型直接将噪声映射为数据样本,或执行任意时刻间的跳跃式生成,消除了多步采样的时间瓶颈 [31][32] - 该方法旨在学习连接任意源分布与目标分布的流动过程,为端到端的快速生成系统提供了严谨的数学基础与可行的实现路径 [24]
ROSCon 2025 -《具身智能训练场》 Workshop 论坛安排
具身智能之心· 2025-10-30 00:03
活动概况 - 活动全称为“ROSConChina 2025 Workshop:具身智能训练场(Embodied Intelligence Playground)” [3] - 活动由刻行时空与穹彻智能联合主办,将于2025年11月1日10:00至12:30在上海虹桥新华联索菲特大酒店举行 [3] 行业趋势与活动焦点 - 具身智能的发展正从算法创新迈向“场景化训练与商业落地”阶段 [6] - 本次论坛聚焦于具身智能训练场的建设思路与实践经验,重点探讨数据获取、治理与仿真加速在具身机器人落地过程中的关键作用 [6] - 活动旨在汇集行业一线的研究者与企业实践者,共同构建具身智能新生态 [6] 会议议程与核心议题 - 议程包含6场主题演讲,涵盖物理AI仿真系统加速训练、具身智能数据集构建、数据采集到场景落地的闭环、空间计算赋能、面向落地的智能体以及高质量数据集搭建等关键议题 [5] - 演讲嘉宾来自松应科技、青瞳视觉、浙江人形机器人、虚拟动点、穹彻智能、刻行时空等公司,议题集中于技术落地与实践 [5] 相关服务平台 - “具身智能之心”被描述为国内首个具身智能全栈学习社区和开发者社区,提供知识星球、技术交流群等服务 [1][16] - 该社区覆盖数据集、仿真平台、VLA、VLN、大模型、机器人控制等多个技术方向,汇总了30+学习路线、40+开源项目、近60+数据集 [16][17] - 社区声称与近200家公司和机构有交流,并提供论文辅导等配套服务 [14][16][17]
大家的秋招都有结果了吗?
具身智能之心· 2025-10-30 00:03
具身智能行业就业趋势 - 行业人才需求旺盛,社区成员已获得包括互联网大厂具身实验室、科研院所及具身独角兽公司在内的多个职位,涉及数据采集和算法等领域 [1] - 在校学生凭借优质项目经验在就业市场保持强劲竞争力,获得良好职位 [1] - 建议求职者优先选择头部大厂或具备独特技术路线的独角兽公司,以规避职业发展风险 [1] 具身智能社区核心服务 - 社区提供持续直播分享,涵盖本体、数据、算法等主题,探讨行业现状与待解决问题 [2] - 为入门者整理完整技术学习路线,帮助快速构建知识体系 [3] - 为从业者提供产业体系与项目方案,具备实际应用价值 [5] - 建立与多家具身公司的内推机制,可直接对接心仪岗位 [7] 社区资源与成员构成 - 社区汇集近2000名成员,包括来自斯坦福大学、清华大学、上海人工智能实验室等国内外顶尖高校实验室的研究人员,以及智元机器人、优必选、小米等头部公司的行业专家 [9] - 汇总超过40个开源项目、近60个具身智能相关数据集及主流仿真平台,提供全面技术资源支持 [9] - 技术学习路线覆盖感知、交互、强化学习、多模态大模型等20余个专业方向,满足不同层次学习需求 [10] 行业研究与发展洞察 - 汇总国内外具身智能高校实验室信息,为学术深造提供参考 [12] - 整合国内外具身机器人公司情报,覆盖教育、工业、物流、医疗等多个应用方向 [15] - 汇集大模型及人形机器人等行业研究报告,便于跟踪产业发展与商业化落地进程 [17] 专业技术知识库建设 - 提供机器人导航、概率机器人、动力学等专业书籍PDF资源,夯实理论基础 [21] - 汇总机器人核心零部件品牌商信息,涵盖芯片、激光雷达、传感器等关键硬件 [23] - 针对仿真平台、强化学习、VLA+RL、Diffusion Policy等前沿技术领域进行专项内容整合 [33][35][37][55] 实践应用与开发支持 - 汇总机器人抓取、控制、交互等领域的开源项目,助力快速上手实践 [25] - 提供数据采集方案与触觉感知、导航、大模型等多个领域的开源数据集,解决数据获取难题 [29][31] - 详细汇总机械臂抓取、双足/四足机器人、移动执行系统等硬件方案的开发资源 [63][65][67]
具身智能领域最新世界模型综述:250篇paper带大家梳理主流框架与任务
具身智能之心· 2025-10-30 00:03
文章核心观点 - 世界模型是具身智能体的“内部模拟器”,负责捕捉环境动态,支持智能体对未来状态进行推理和行动规划 [1] - 随着生成模型的发展,世界模型研究日趋繁荣但缺乏统一梳理,该综述首次提出一个基于功能、时序建模和空间表征的三轴分类法,为领域建立清晰框架 [2][6] 三轴分类法 - **功能定位轴**:区分决策耦合型(为特定决策任务优化)与通用目的型(构建任务无关的通用模拟器) [6] - **时序建模轴**:区分顺序序列模拟(自回归方式逐步建模)和整体差分预测(并行捕捉未来时间步映射关系) [6] - **空间表征轴**:涵盖四种主流空间状态建模策略,包括全局潜变量、Token特征序列、空间潜在网格、分解式渲染 [6] 功能定位分析 - **决策耦合型世界模型**:属于任务驱动型,与策略优化紧密耦合,在模型“想象”的轨迹中直接优化策略,代表模型如Dreamer系列,优势在于任务表现通常出色,但学习的表征可能过度贴合任务而难以泛化 [15] - **通用目的型世界模型**:定位为任务无关的环境模拟器,着眼于对环境动态的广泛预测和高保真生成,优势在于泛化能力强且表示能力丰富,但计算复杂度高,实时推理成本较高 [16] 时序建模分析 - **顺序推理型**:逐步模拟未来世界演化的时间建模方式,便于理解和规划,典型架构包括RNN、Mamba、自回归方式以及思维链和LLM支持的目标分解,优势是时序因果一致,适合闭环控制,但长时预测需多次迭代,容易误差累计且并行性较差 [20] - **全局预测型**:并行地预测整段未来序列的时间建模方式,常见做法包括掩码/JEPA的特征预测与并行扩散视频生成,优势是降低误差累积,并行计算效率高且便于添加全局约束,但闭环交互性较弱,局部动力学细节不足 [23] 空间表征方式 - **全局潜变量**:将场景/世界状态压缩为一个低维变量并在该紧凑表示上进行动力学建模,优势是计算/时延友好,适配实时控制且模型/内存开销小,但细粒度时空信息可能损失 [28] - **Token特征序列**:将世界状态表示为一组离散token的特征序列,便于建模token间依赖关系,优势是与注意力机制耦合,能细粒度表示复杂场景和多模态信息,但需要大量数据训练且常依赖大参数量模型,推理开销高 [29] - **空间潜在网格**:将空间信息注入场景或将场景编码到空间网格中,是自动驾驶领域主流方式,优势是保留空间局部拓扑,易于多视角融合和地图生成,但表示规模大,分辨率受限且对非结构化环境适应性差 [34] - **分解式渲染表示**:将场景拆解为一组可渲染基本要素,再通过渲染流程或生成模型构建观察空间,优势是能生成视角一致的高保真图像并支持物体级别操作,但对动态场景扩展性差,建模和推理成本高,难以实时更新场景中变化部分 [35] 数据资源与评价指标 - **数据资源分类**:具身智能数据资源可划分为四类,包括仿真平台(如MuJoCo、CARLA、Habitat)、交互式基准(如DeepMind Control套件、Atari游戏、Meta-World)、离线数据集(如RT-1、Open X-Embodiment、nuScenes)以及真实机器人平台(如Franka Emika机械臂、Unitree Go1四足机器人) [37][39] - **评价指标层级**:针对世界模型的不同侧重有三层抽象水平评价指标,包括像素级生成质量(如FID、FVD、SSIM、PSNR)、状态/语义一致性(如mIoU、mAP、Displacement Error)以及任务绩效指标(如累积奖励、成功率、碰撞率),新近评测倾向于设计物理合规性、因果一致性等指标弥补传统不足 [40] 性能对比 - **视频生成性能**:在nuScenes数据集上的视频生成性能对比显示,不同方法的FID和FVD指标存在差异,例如Vista方法的FID为6.9,FVD为89.4,而DrivePhysica方法的FID为4.0,FVD为38.1 [41] - **4D占据预测性能**:在Occ3D-nuScenes基准上的4D占据预测性能对比中,DTT-O方法在mIoU指标上1秒预测达到37.69%,2秒预测达到29.77%,3秒预测达到25.10%,平均为30.85% [41] - **控制任务性能**:在连续控制任务中,Dreamer方法在5M训练步数下于Reacher Easy任务获得935的回合回报,Cheetah Run任务获得86?的回合回报,Finger Spin任务获得499的回报,Walker Walk任务获得962的回报,平均为823 [42] - **机器人操作成功率**:在机器人操作任务中,VidMan方法在Stack Blocks任务成功率为48%,Close Jar为88%,Open Drawer为94%,Sweep to Dustpan为?%,Slide Block为98%,平均成功率为67% [43] - **自动驾驶规划性能**:在nuScenes验证集上的开环规划性能显示,SSR方法在1秒、2秒、3秒预测的L2距离分别为0.24m、0.65m、1.36m,平均为0.75m,碰撞率分别为0.00%、0.10%、0.36%,平均为0.15% [43] 挑战与展望 - **数据与评估挑战**:领域缺乏统一的大规模多模态数据集,评估指标往往偏重像素重构误差,忽视了物理合理性、动态一致性和因果关系,未来需要构建跨领域数据集和测试基准 [46] - **计算效率与实时性**:先进世界模型推理开销巨大,难以满足实时控制要求,未来需要在不过度损失性能前提下提高模型推理速度和效率,可能借助模型压缩、稀疏计算及更高效的时序建模方法 [46] - **建模策略与平衡**:在序列自回归和全局并行两种时间建模、不同空间表示之间寻求最佳折中依旧困难,结合两者优点或是一条有效出路,例如利用分层模型或引入显式记忆和层次规划 [46]
IROS 2025-Challenge冠军方案:X-VLA重磅开源,全面刷新机器人基准性能记录
具身智能之心· 2025-10-29 04:07
模型性能突破 - 模型在五大权威仿真基准上全面刷新性能纪录,在Simpler基准的VM任务中达到80.4分,VA任务达到75.7分,WidowX任务达到95.8分,显著超越现有SOTA模型[2][7][24] - 模型以仅0.9B的超轻量参数量实现卓越效费比,在LIBERO基准的Spatial、Object、Goal、Long任务中分别达到98.2、98.6、97.8、97.6分,平均分98.1分,超越现有最高分97.1分[2][7][24] - 模型在Calvin基准的ABC->D任务达到4.43分,在RoboTwin-2.0基准的Easy和Hard任务分别达到70.0分和39.0分,平均分51.1分,在VLABench基准达到87.3分,全面超越现有SOTA[24] 技术竞赛表现 - 在IROS-2025 AGIBOT World Challenge中从全球23个国家431支战队中脱颖而出,最终获得全球第一名[4][5] - 竞赛围绕抓取、折叠、烹饪、倒水等六大真实物理任务展开,模型在多任务多场景的真实物理操作中展现出卓越泛化能力与鲁棒性[4][5] 技术创新亮点 - 引入面向本体泛化的Soft-Prompt机制,动态编码机器人硬件配置信息为连续表征,显著增强模型对异构机器人平台的适应能力[16] - 采用基于功能分工的多模态编码策略,主视角图像由高性能视觉-语言模型编码,辅助视角通过轻量化网络提取局部特征,优化计算资源分配[16] - 采用基于flow-matching的生成式动作解码器,以概率生成方式建模机器人动作序列,增强动作轨迹平滑性与环境鲁棒性[17] 训练数据优化 - 实施严格的多模态数据清洗与时空对齐流水线,将不同空间动作数据统一映射至标准任务空间,提升状态-动作序列的时间一致性逻辑[21] - 确立以语义-动作对齐为导向的数据遴选标准,筛选视觉帧清晰、语言指令精准且与动作序列高度关联的数据样本[21] 实际应用成果 - 在真实机器人平台上成功完成无限时长的自主叠衣任务,展示了应对复杂长程任务的卓越能力[27] - 在大量简单抓取和桌面操作任务中展现强大性能,验证了模型在真实物理环境中的实用性[27]
招募几位具身世界模型相关方向的大佬!
具身智能之心· 2025-10-29 04:00
文章核心观点 - 具身世界模型是一个新兴且具有高产业和研究价值的领域 [1] - 公司正在招募讲师合作开发具身世界模型相关课程 [2][3] 合作内容 - 合作内容包括具身世界模型相关课程设计、PPT制作和内容分享 [4] 招聘要求 - 招聘对象为正在从事具身领域研究的博士及以上学历人员 [5] - 期望候选人至少发表过一篇CCF-A级别会议论文 [5] 待遇说明 - 提供高于行业水平的薪资 [6] - 岗位可兼职 [6]
突破机器人空间感知瓶颈!中山大学与拓元智慧团队提出TAVP框架
具身智能之心· 2025-10-29 00:03
研究背景与问题 - 当前主流机器人视觉-语言-动作模型依赖单一或固定视角观测与共享视觉编码器,在复杂多任务操控场景中存在3D感知不完整和任务干扰严重两大核心挑战[3][5] - 固定视角易导致目标物体或机械臂末端被遮挡,造成场景理解缺失与动作预测失误,例如“将糖放入橱柜”任务中前视摄像头仅能捕捉橱柜而肩视摄像头仅能看到糖[7] - 共享编码器在处理视觉与语义差异大的任务时特征会相互纠缠,限制模型在多任务场景下的泛化能力与扩展性[7] 核心技术创新 - 提出Task-Aware View Planning框架,通过多视角探索策略动态选择最优虚拟摄像头位姿并进行重渲染,采用“Look-at模型”将摄像头位姿表示为5维向量确保视角可解释与优化[9][11] - 任务感知混合专家编码器通过跨模态专家路由融合语言指令与场景视觉信息,动态选择适配当前任务的专家编码器,并设置8个门控对应18项任务实现参数复用[12] - 采用三阶段训练策略:先进行固定视角预训练,再通过PPO算法训练视角探索策略,最后微调任务感知编码器与动作预测网络实现端到端协同[20] 实验性能表现 - 在RLBench基准测试的18项操控任务中平均成功率达到86.6%,超越RVT2的81.4%和ARP+的84.9%等固定视角基线模型[14] - 消融实验表明移除任务感知编码器后平均成功率降至85.6%,而用随机视角替代动态探索后性能骤降至8.9%,证明核心模块不可或缺[15][21] - 在未训练的“打开抽屉”任务中实现12.0%的zero-shot成功率,而无任务感知编码器的模型成功率为0,显示其知识迁移能力[16][22] 泛化能力与效率 - 真实世界鲁棒性测试显示在未知背景和物体场景下成功率分别达到90.0%,远高于Diffusion Policy的70.0%和60.0%[18][19] - 尽管动态视角重渲染增加计算成本,但平均推理时间仅0.436秒,较ARP+的0.394秒仅增加10.7%,通过采样加速与摄像头缓存实现性能平衡[22] - 在真实机器人平台Dobot Nova2上执行“堆叠碗碟”等任务时成功率显著超越Diffusion Policy,证明其在真实场景的适配性[23] 行业应用前景 - 该框架为家庭服务机器人和工业协作机器人等复杂场景应用提供技术支撑,首次实现“任务引导视角选择”与“视角适配动作预测”的协同优化[25] - 未来将优化反光或透明物体对点云重建的影响,并探索多传感器融合进一步扩展机器人操控的任务边界[25]