具身智能之心

搜索文档
Humanoid Occupancy:首个多模态人形机器人感知系统!解决运动学干扰和遮挡问题
具身智能之心· 2025-08-21 00:03
>>直播和内容获取转到 → 具身智能之心知识星球 点击下方 卡片 ,关注" 具身智能 之心 "公众号 点击按钮预约直播 人形机器人技术正在飞速发展,各大制造商纷纷推出针对特定场景、形态各异的异构视觉感知模块。在各种感知范式中,基于占用的表示(occupancy-based representation)已被广泛认为特别适合人形机器人,因为它能同时提供丰富的语义信息和三维几何信息,这对于全面理解环境至关重要。 本工作提出了 Humanoid Occupancy(人形机器人占用感知系统),这是一个 广义的多模态占用感知系统,它集成了硬件与软件组件、数据采集设备以及一套专用 的标注流程 。本文的框架采用先进的多模态融合技术,生成基于网格的占用输出(grid-based occupancy outputs),这些输出同时编码了空间占用状态和语义标签, 从而为任务规划与导航等下游任务提供了全面的环境理解能力。为应对人形机器人的独特挑战,本文克服了诸如运动学干扰(kinematic interference)和遮挡 (occlusion)等问题,并确立了一套有效的传感器布局策略。此外, 本文还开发了首个专为人形机器人设计 ...
X-SAM:统一图像分割多模态大模型,20+个数据集上均SoTA
具身智能之心· 2025-08-21 00:03
研究背景与动机 - Segment Anything Model (SAM) 依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性 [3] - 多模态大语言模型(MLLMs)输出局限于文本生成,无法直接处理像素级视觉任务,阻碍了通用化模型的发展 [3] - 研究团队提出 X-SAM,将分割范式从「分割万物」扩展到「任意分割」,通过视觉定位分割(VGS)任务赋予 MLLMs 像素级理解能力 [3] 方法设计 - X-SAM 采用通用输入格式,支持文本查询输入和视觉查询输入(包括点、涂鸦、边界框、掩码等多种提示形式) [7] - 引入特殊标记 <SEG> 表示分割结果,<p> 和 </p> 标记间的潜在语言嵌入作为分割解码器的条件嵌入 [7] - 采用端到端的统一分割 MLLM 架构,包含双编码器设计(SigLIP2-so400m 和 SAM-L)、双映射器架构、分割连接器和 Mask2Former 解码器 [10][11][12] - 采用三阶段渐进式训练策略:分割器微调、对齐预训练和混合微调,采用数据集平衡重采样策略改善少样本数据集性能 [13][15][19] 实验结果 - X-SAM 在超过 20 个分割数据集上进行了全面评估,涵盖 7 种不同的图像分割任务,实现了全任务最优性能 [16] - 在指代分割任务中,X-SAM 在 RefCOCO、RefCOCO+ 和 RefCOCOg 数据集上达到 85.1/87.1/83.4、78.0/81.0/74.4 和 83.8/83.9 的准确率,显著优于现有方法 [18] - 在视觉定位分割任务中,X-SAM 在点、涂鸦、边界框和掩码提示下的 AP50 分别达到 72.5、73.4、74.7 和 74.9,远超 PSALM 的 3.3、4.4、5.8 和 3.3 [20] - 在图文理解任务中,X-SAM 在 MME、MMBench、SEED-Bench、POPE 和 AI2D 数据集上分别达到 1374/312、69.3、69.3、89.3 和 62.6 的分数,优于多数对比模型 [20] 总结与展望 - X-SAM 作为首个真正统一的分割多模态大语言模型,实现了从「segment anything」到「any segmentation」的重要跨越 [24] - 未来研究方向包括与 SAM2 集成实现图像和视频的统一分割,以及将 VGD 分割扩展到视频中,引入时序信息构建创新的视频分割任务 [25]
港大&清华最新!仅通过少量演示,实现动态物体操作的强泛化能力!
具身智能之心· 2025-08-21 00:03
动态物体操作的技术挑战与现有方法局限 - 动态物体操作对运动规划的时效性和操作精度要求更高,需实时应对物体移动速度、轨迹变化等因素 [8] - 经典运动规划方法依赖复杂系统建模和参数调优,需针对不同场景定制设计,扩展性差 [11] - 现有模仿学习方法泛化能力依赖大量演示数据,但动态场景公开数据集极少且数据收集成本极高 [11] 基于熵的理论框架创新 - 通过信息熵分析将专家演示的联合熵分解为观测熵(衡量观测信息复杂度)和动作条件熵(衡量动作预测模糊性) [14][16] - 降低观测熵需剔除与动作预测无关的冗余信息(如物体外观、环境背景),保留核心几何结构 [16] - 降低动作条件熵需引入历史记忆解决信息不足问题,并用概率模型处理多模态动作分布 [16] GEM系统核心技术实现 - 采用目标中心几何感知模块:使用无颜色3D点云+实例ID作为输入,避免图像外观信息干扰,并通过实例分割去除环境背景点云 [24] - 开发混合动作控制模块:通过视觉伺服控制跟踪移动物体使其呈现"静态",再通过递归概率网络生成操作动作 [24] - 记忆编码器通过Transformer解码器融合当前点云特征与历史记忆特征,采用高斯混合模型表示多模态动作分布 [27][29] 实验性能表现 - 在模拟场景中四项技能(抓取、放置、旋转、插入)平均成功率达83%,显著高于次优方法PI0*的57% [30] - 在真实场景中平均成功率达85%,其中抓取成功率92%、放置成功率96%、旋转成功率79%、插入成功率74% [31] - 在传送带速度0.25m/s时仍保持较高成功率(抓取81%、放置92%、旋转73%、插入48%),但在0.5m/s时失效 [38] 系统泛化能力验证 - 3D点云输入比图像输入在泛化任务中成功率高20%-30% [39] - 支持非直线运动(S形轨迹、随机曲线)且成功率保持在75%以上 [39] - 对未见物体(如食堂多样餐具)成功率仍达74%,且在四种机械臂上通用(成功率差异<5%) [39] - 仅用模拟数据训练在真实场景仍有76%抓取成功率,微调后提升至92% [39] 实际应用成效 - 在食堂餐具收集中7天内完成10,000+次操作,成功率97.2%,无需现场演示仅用100次模拟微调 [44] - 首次实现模仿学习在动态操作中的大规模实用化,突破动态场景数据收集成本高的瓶颈 [44]
宁波东方理工大学联培直博生招生!机器人操作/具身智能/机器人学习等方向
具身智能之心· 2025-08-20 04:00
宁波东方理工大学联培直博项目 - 联合上海交通大学、中国科学技术大学招收机器人方向联培直博生,学籍注册在合作高校,第一年课程学习在合作高校,后续科研工作在东方理工,双导师制,毕业后获合作高校博士学位[1] - 导师李晓聪为宁波东方理工助理教授兼新加坡国立大学客座助理教授、哈佛大学客座研究员,研究方向为控制、学习与机器人交叉领域,累计获得千万级科研资助,担任IEEE T-ASE和RAM副主编[1] - 实验室提供充足助研津贴和实验设备支持,学生主导科研且导师不抢占一作,课题组无横向项目干扰,专职行政助理处理事务性工作,注重学生职业发展并推荐海外博后机会[2] 具身智能之心知识星球社区 - 国内首个具身智能全栈技术社区,集视频、图文、学习路线、问答、求职于一体,成员近2000人,目标2年内达万人规模,提供技术问题快速解答(如数据采集、模型部署等)[3][5] - 社区闭环覆盖产业、学术、求职领域,梳理30+技术路线(如VA/VLA、Diffusion Policy、sim2real等),汇总40+开源项目、60+数据集、行业仿真平台,邀请数十位一线产业界和学术界嘉宾答疑[5][18] - 建立高校与企业资源网络:高校包括斯坦福、清华、ETH等,企业涵盖智元机器人、优必选、小米等头部公司,提供岗位内推机制和行业研报(30家汇总)[12][18][23] 行业技术资源与学习体系 - 学习路线覆盖具身智能全领域:包括强化学习全栈、多模态大模型(理解/生成)、机械臂策略学习、触觉感知等16个细分方向,配套开源项目和数据集[18][46][54][56] - 汇总机器人硬件生态:零部件品牌(芯片、激光雷达等)、仿真平台(Isaac Sim等)、四足/双足机器人开源项目,助力系统搭建[30][40][73] - 提供职业发展支持:针对不同阶段设计技术栈(小白入门/进阶提升),组织圆桌论坛和直播(本体设计、算法优化等),分享产业落地案例[13][15][78] 行业趋势与人才流动 - 自动驾驶领域人才向具身智能迁移趋势明显,技术栈通用性高(如Transformer基础),视觉语言导航和端到端导航成为过渡方向[82][84] - 具身智能处于探索期(对标自动驾驶2017/18阶段),薪资水平高于传统机器人岗位,初创公司总包达70-80万但稳定性较低[84] - SLAM在消费级机器人中工程化需求显著(定位建图稳定性优化),但行业焦点转向大模型与端到端技术,强化学习岗位溢价明显(薪资高出智驾15%)[83][85]
Meta没做的,英伟达做了!全新架构吞吐量狂飙6倍,20万亿Token训练
具身智能之心· 2025-08-20 00:03
文章核心观点 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用创新Mamba-Transformer混合架构 在数学、代码、推理与长上下文任务中表现与Qwen3-8B持平或更优 同时实现最高6倍推理吞吐量提升 [1][4][6] - 模型通过结构化剪枝与知识蒸馏技术将12B基础模型压缩至9B 显著降低部署资源需求 [31][38][39] - 公司同步开源包括预训练数据集、基础模型及对齐模型在内的完整生态资源 覆盖6.6万亿高质量多模态训练数据 [44] 模型架构创新 - 采用Nemotron-H混合架构 使用Mamba-2层替换传统Transformer自注意力层 实现线性计算复杂度与超长序列处理能力 [16][17][28] - 混合架构兼顾Transformer在记忆复制与上下文学习任务的优势 以及Mamba在长上下文建模中的效率 [29][30] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升 支持128k上下文长度 [39][42] 训练与优化策略 - 基于20万亿token数据集进行FP8预训练 构建120亿参数基础模型Nemotron-Nano-12B-v2-Base [32][34] - 结合SFT、DPO、GRPO、RLHF多阶段对齐方法提升推理、对话与工具调用能力 [36] - 通过Minitron策略进行结构化剪枝与知识蒸馏 最终压缩至90亿参数且保持单卡A10G GPU可部署 [38][39] 性能表现 - 在GSM8K、MATH等数学基准测试达到97.8%准确率 代码任务(HumanEval+/MBPP+)与通用推理(MMLU-Pro)表现优于同类开源模型 [41][43] - 长上下文任务(RULER128k)性能持平Gemma3-12B等更大参数模型 [41] - 工具调用能力支持实时天气查询、角色描述等具体应用场景 [10] 开源生态建设 - 在HuggingFace平台开源三个核心模型:9B对齐模型、9B基础模型及12B基础模型 [44] - 发布Nemotron-Pre-Training-Dataset-v1数据集 包含6.6万亿token 覆盖网页爬取、数学、代码及多语言问答数据 [44] - 专项开源1330亿token数学数据集(Nemotron-CC-Math-v1)与多编程语言代码数据集(Nemotron-Pretraining-Code-v1) [44] 行业竞争格局 - 英伟达在开源模型领域持续投入 与Meta转向闭源策略形成对比 [45][47] - 架构创新竞赛加剧 除Mamba外Meta推进JEPA/LCMs 谷歌DeepMind投入50%研究力量开发Titans/Atlas等新架构 [21][22] - 模型小型化与效率优化成为行业焦点 9B模型在特定任务性能比肩更大参数模型 [41][39]
探究下VLA模型泛化差的原因......
具身智能之心· 2025-08-20 00:03
研究背景与核心问题 - 大规模数据集(如Open X-Embodiment/OXE)训练的通用机器人策略在分布范围内表现良好,但泛化能力受限 [2] - 泛化受限的根本原因是捷径学习,即模型过度依赖与任务无关的特征 [2] - 捷径学习由两个关键因素导致:单个子数据集内部多样性有限,以及子数据集间存在显著分布差异(数据集碎片化) [2] 数据集结构分析 - OXE等大规模数据集由多个独立收集的子数据集构成,这些子数据集来自不同环境和机器人形态 [2] - 这种固有结构导致数据集内部多样性不足和碎片化问题 [2] 解决方案与实证发现 - 通过精心选择的数据增强策略可有效减少现有离线数据集中的捷径学习 [2] - 数据增强方法能提升通用机器人策略在仿真和真实环境中的泛化能力 [2] - 研究结果为改进机器人数据集收集策略提供了重要见解 [2] 研究应用与延伸 - 研究成果适用于视觉语言动作模型(VLA),当前VLA的泛化能力十分有限 [5] - 针对OXE数据集的深入分析为数据收集提供了指导方针 [5] - 研究涉及真实场景下的机器人导航和运动控制(real2sim2real)以及真机性能提升(如32%的性能提升)等应用方向 [7]
ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
具身智能之心· 2025-08-20 00:03
研究背景与动机 - 3DGS技术在动态场景建模中存在精度不足问题 常导致渲染图像出现伪影 [1] - 高斯致密化过程具有双重作用机制:既增强场景细节表达 又促使模型过早拟合动态区域导致伪影和场景失真 [4] - 传统致密化策略存在依赖性风险 细节提升可能以牺牲静态区域重建质量为代价 [4] 核心技术方案 - 首创延迟高斯生长策略:在允许高斯分裂/克隆前优先优化静态场景结构 减少优化初期对动态物体的过拟合 [1][6] - 设计尺度级联掩码引导方法:先利用低分辨率特征相似度监督进行可靠的初始动态掩码估计 再逐步过渡到高分辨率监督实现精准掩码预测 [1][14] - 采用含两层线性层的MLP作为掩码估计网络 以DINOv2特征为输入 因其在语义一致性和抗噪性方面表现优异 [9][10] - 掩码学习总损失结合图像残差损失和特征余弦相似度损失 增强语义级动态区域识别能力 [10][13] 实验效果 - 在NeRF On-the-go和RobustNeRF数据集上 相比3DGS、SpotLessSplats、WildGaussians等基线方法 PSNR、SSIM、LPIPS等指标全面领先 [16][20] - 能处理含多样瞬态物体的复杂场景并保留细节 有效减少瞬态物体导致的渲染伪影 [19][20] 技术价值 - 通过调节致密化过程引入时机 有效平衡静态结构表达与动态干扰抑制 [6] - 推动在复杂场景中实现鲁棒、细节丰富的3D场景重建 [6][20]
ExploreVLM:基于视觉-语言模型的闭环机器人探索任务规划框架
具身智能之心· 2025-08-20 00:03
研究背景与核心问题 - 具身智能发展推动机器人成为日常助手 要求机器人具备高层指令解读 动态环境感知和实时计划调整能力 [3] - 视觉-语言模型(VLMs)因融合视觉理解与语言推理能力 成为机器人任务规划的重要方向 [3] - 现有VLMs方法存在三方面局限:交互式探索能力不足 感知精度有限 计划适应性差 [6] 核心框架设计 - ExploreVLM采用"感知-规划-执行-验证"闭环设计解决现有问题 [5] - 框架流程包括:场景感知模块提取目标中心空间关系图 双阶段规划器生成探索和完成阶段子目标 执行验证器生成反馈 规划器动态调整计划 [6] 关键模块解析 - 目标中心空间关系图构建结构化场景表示:节点标注物体语义属性 有向边表示物体间空间关系 [8] - 构建流程分两步:GroundedSAM2分割图像并标注物体类别 VLM推理空间关系将2D图像转化为语言可理解的3D空间结构 [9] - 双阶段自反思规划器分离"未知信息探索"与"目标达成":探索阶段生成探索子目标及动作 完成阶段生成达成最终目标的动作序列 [10][12] - 自反思机制通过链-of-thought推理修正计划 解决LLM幻觉问题:验证目标有效性 检查动作逻辑一致性 处理障碍物 [10][12] - 执行验证器采用逐步验证机制:判断动作是否成功 验证子目标是否达成 若失败返回具体原因触发重新规划 [14][17] 实验验证 - 实验在真实机器人平台(UR5机械臂+Robotiq夹爪+Intel RealSense相机)进行 设计5个递增复杂度任务 [15] - 平均成功率:ExploreVLM达94% 远超ReplanVLM的22%和VILA的30% [16][19] - 各任务成功率:Task1 100% Task2 100% Task3 100% Task4 90% Task5 80% [19] - 消融实验显示移除核心模块后性能大幅下降:无空间关系图成功率降至30% 无双阶段规划器降至10% 无执行验证器降至0% [19] 优势分析 - 空间关系图提升场景理解精度 准确识别障碍物和物体 [21] - 双阶段规划解决探索性任务困境 通过探索准确定位目标 [21] - 自反思修正逻辑错误 避免不合理动作序列 [21] - 逐步验证增强抗噪声能力 及时检测失败并重试 [21] 与传统方法对比 - 传统TAMP方法缺乏自然语言与视觉整合 适应性有限 [22] - VILA直接用GPT-4V生成计划 但缺乏结构化感知 探索与执行脱节 [22] - ReplanVLM依赖阶段末反馈 误差易累积 [22] - RoboExp需依赖先验物体知识 探索步骤冗余 [22]
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心· 2025-08-19 01:54
方法范式 - 传统强化学习(RL)和模仿学习结合Sim2Real技术,方法包括DQN/PPO/SAC/D4PG/GRPO等,主流仿真环境有Mujoco、Gazebo、Bullet、IssacSim/IssacGym [5] - Diffusion Policy和VLA模型与传统RL的根本区别在于用训练数据分布描述任务目标,而非依赖reward function,适合复杂任务如叠衣服、收拾桌面等 [4] - OpenVLA模型整合多模态输入,基于7B参数的Llama 2语言模型,结合DINOv2和SigLIP视觉编码器 [7] - RDT(Robotic Decision Transformer)采用Goal-Conditioned设计,在AGIBot百万真机数据集上训练 [9] - pi-0引入动作抽象层,将不同机器人关节空间映射到统一潜空间,缓解本体差异问题 [13] - 流匹配(Flow Matching)建模从标准正态分布到复杂目标数据分布的映射,用于生成机器人动作序列 [15][17][18] 技术实现 - 基础运动控制(如人形/四足机器人)以RL+sim2real为主,模型较小,算力消耗低,但全场景丝滑动作仍有差距 [22] - 复杂/长程操作任务采用预训练ViT编码器+LLM,使用diffusion/流匹配/transformer decoder输出动作,通过预训练+微调实现跨机器人泛化 [23] - 宇树官方demo基于IssacGym和PPO算法 [24] - 北京亦庄人形机器人中心开源强化学习运动控制,基于IssacLab融合人体运动数据与AMP奖励,实现天工Ultra机器人21公里奔跑 [24] - pi0预训练阶段利用10,000小时多机器人数据,微调阶段需1-5小时到上百小时任务数据,模型规格为33亿参数 [25] - Google Gemini Robotics采用云端VLA骨干(160毫秒延迟)和本地动作解码器的快慢架构 [25][26] 数据集 - Open X-Embodiment数据集包含1M+ trajectories、500+ skills、22种机器人类型,统一为RLDS格式 [21] - AGIBot数据集为智元机器人开源的百万真机数据集 [9][24] - EgoDex数据集包含829小时人类操作视频,338K轨迹/194任务 [24] 应用场景 - 基础运动控制依赖仿真器、机器人模型和domain randomization设计,reward shaping和sim2real技术 [35] - 复杂长程任务依赖VLA和Diffusion/FM,用训练数据分布描述任务目标,语言索引任务分布 [35] - 任务过程和目标定义方面,强化学习通过reward函数,VLA用数据分布描述,未来可能通过多模态输入预测任务目标 [35] - 底层控制任务适合RL+sim2real,上层复杂任务适合VLA+数据,如叠衣服、收拾桌面等需要理解人类意图的任务 [40]
一个集视频 /图文/学习路线/问答/求职交流为一体的具身社区
具身智能之心· 2025-08-19 01:54
社区规模与定位 - 具身智能之心知识星球是国内首个具身全栈技术社区 集视频 图文 学习路线 问答 求职交流为一体 目前近2000人 目标2年内达到近万人规模 [1][3] - 社区成员覆盖斯坦福大学 加州大学 清华大学 西湖大学 上海交大 智元机器人 有鹿机器人 优必选等40余家顶尖高校和头部企业 [17] 技术资源体系 - 汇总40+开源项目 60+具身智能数据集 行业主流仿真平台及20余种技术学习路线 包括具身感知 强化学习 VLA 多模态大模型等方向 [17][18] - 整理近30+技术路线 涵盖benchmark 综述 入门指南 并邀请数十位产业界与工业界嘉宾提供一线指导 [4][9] - 提供机器人导航 概率机器人 动力学与运动学等基础学习书籍 以及ToF相机 数据采集方案 触觉感知等专项技术资源 [28][34][36] 行业研究内容 - 汇总国内外具身智能高校实验室与公司 涉及教育 宠物 工业 救援 物流 交互 医疗等多个领域 [20][23] - 整合IFR-2024世界机器人报告 GTC大会 2024中国具身智能创投报告等10余份行业研报 跟踪技术发展与商业化进展 [25][27] - 梳理机器人零部件制造厂商 包括芯片 激光雷达 相机 IMU等核心部件品牌信息 [30] 社区活动与服务 - 每周举办圆桌论坛与直播 覆盖灵巧手 agent 数采 具身本体等主题 并计划拓展具身大脑+小脑算法技术分享 [1][4] - 建立岗位内推机制 与多家具身公司合作 提供求职对接服务 第一时间推送招聘岗位 [11][21] - 社区内实时解答技术问题 包括设备使用 数据采集 VLA模型部署等实操性难题 [1][3] 成员互动案例 - 为研一学生提供实习建议 推荐Isaac Sim仿真项目 指导项目问题总结与解决方案 [77] - 指导自动驾驶VSLAM工程师转向视觉语言导航或DL-based SLAM方向 利用现有技术栈平滑过渡 [78] - 为研三SLAM方向学生提供职业规划建议 分析智驾与具身行业薪资差异及转方向可行性 [80][81][84]