具身智能之心

搜索文档
机器人顶会RSS 2025奖项公布!
具身智能之心· 2025-06-27 08:36
RSS 2024获奖论文 - 杰出Demo论文奖授予UC伯克利、Google DeepMind等机构开发的MuJoCo Playground框架 该开源机器人学习框架基于MJX构建 支持四足机器人、人形机器人等多种平台 可实现分钟级单GPU策略训练和零样本仿真到现实迁移 [4][5][6][7][8][9] - 杰出系统论文奖由哈佛大学团队获得 其提出的XM优化引擎采用凸半有限规划松弛和CUDA加速 在10,155帧运动结构重建任务中1小时达到全局最优 重建质量优于现有方案 [11][13][15][16] - 杰出学生论文奖授予MIT团队开发的Def-MARL算法 该多智能体强化学习方案通过epigraph形式提升稳定性 在8项模拟任务和Crazyflie飞行器实验中实现零约束违反的安全协作 [17][19][20][21][23][25][26] - 杰出论文奖由康奈尔大学等机构的FEAST系统获得 该模块化进餐辅助机器人通过参数化行为树架构支持LLM驱动的个性化调整 在适应性、透明性、安全性方面超越固定定制方案 [28][29][30][31][32] 机器人技术突破 - MuJoCo Playground整合物理引擎、批量渲染器与训练环境技术栈 显著降低机器人仿真到现实的开发门槛 [6][8] - XM优化引擎采用Burer-Monteiro分解和黎曼优化 解决极端规模SDP松弛问题 速度与可扩展性显著提升 [13][15] - Def-MARL算法通过集中训练-分散执行架构 在四旋翼飞行器协作任务中实现安全约束下的最优性能 [21][23] - FEAST系统通过头部姿势识别、实体按钮等多模态交互 满足不同用户的个性化护理需求 [30] 学术机构贡献 - UC伯克利与Google DeepMind联合开发的开源框架支持灵巧手、机械臂等多种机器人平台 [5][7] - 哈佛大学提出的SBA公式将二维关键点测量提升至三维 实现可验证全局最优解 [13] - MIT团队在Crazyflie四旋翼飞行器上验证了多智能体算法的实际部署能力 [25] - 康奈尔大学模块化设计支持进食、饮水、擦嘴功能的快速切换 [30] 时间检验奖 - 2009年宾夕法尼亚大学论文《Cooperative Manipulation with Aerial Robots》获2025年时间检验奖 其提出的多机器人线缆操纵方法至今影响深远 [33][36]
保姆级具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-06-27 08:36
具身智能技术发展 - 具身智能正在全面崛起,重新定义人类与机器的关系,从理解语言指令到在复杂环境中灵活移动和精确操作物体 [1] - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在竞相布局具身智能领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境 [4] - MuJoCo支持高度并行的计算,可同时运行成千上万个仿真实例,仿真速度比现实时间快数百倍 [6] - MuJoCo采用先进的接触动力学算法,精确模拟机器人与环境的复杂交互,并提供丰富的传感器模型 [6] - MuJoCo已成为学术界和工业界的标准工具,被Google、OpenAI、DeepMind等科技巨头广泛使用 [7] 具身智能实战教程 - 课程采用项目驱动的学习方式,涵盖从物理仿真原理到深度强化学习的完整知识体系 [8] - 课程包含六个递进式实战项目,从机械臂控制到Sim-to-Real迁移技术,每个项目都体现当前技术热点 [11][12] - 项目一:智能机械臂控制系统,涉及MuJoCo建模、物理仿真和基础控制技术 [14][15] - 项目二:视觉引导的抓取系统,深入理解感知与控制的关系 [16][17] - 项目三:强化学习驱动的运动技能,训练智能体学会复杂运动技能 [18][19] - 项目四:模型预测控制算法,实现实时轨迹优化 [20] - 项目五:多机器人协作系统,探索集体智能的应用 [21][22] - 项目六:Sim-to-Real迁移验证,掌握从仿真到现实的完整过程 [23][24] 行业应用与人才需求 - 具身智能技术将广泛应用于工厂精密装配、医疗手术协助、家庭服务和危险环境救援等领域 [1] - 完成课程后,学员将具备技术能力、工程能力和创新能力,成为具身智能领域的复合型人才 [27][28] - 技术专家路径包括机器人算法工程师、AI研究工程师和仿真技术专家,年薪可达30-150万 [30] - 产品经理路径适合具有技术背景的学员,年薪范围30-80万,有机会发展为技术总监或创业者 [30] 课程安排 - 课程采用循序渐进的设计理念,分为六个学习模块,每周有明确的学习目标和实践项目 [10][12] - 开课时间为2025年7月15日,每周更新一章,6周结课,采用离线视频教学和VIP群内答疑 [32]
清华大学最新综述!具身AI中多传感器融合感知:背景、方法、挑战
具身智能之心· 2025-06-27 08:36
具身AI与多传感器融合感知 - 具身AI以物理实体为载体,通过动态环境实时感知实现自主决策和行动能力,是突破AI发展瓶颈、实现通用人工智能(AGI)的关键路径[3] - 多传感器融合感知(MSFP)对实现具身AI的稳健感知和准确决策能力至关重要,需融合视觉相机、毫米波雷达、激光雷达等多模态传感器数据[3] - 当前MSFP方法面临跨模态数据异质性、时空异步和传感器故障等固有挑战[4] 传感器数据与数据集 - 相机数据捕捉丰富外观特征但对光照敏感,激光雷达提供高精度3D点云但对天气敏感,毫米波雷达在恶劣天气性能良好[10] - KITTI数据集包含14,999张图像及相应点云,采集于德国卡尔斯鲁厄及附近城市[13] - nuScenes数据集在波士顿和新加坡采集,包含140万张相机图像、39万次LiDAR扫描和140万次雷达扫描[13] - Waymo Open数据集包括126万个3D边界框和118万个2D边界框,涵盖白天、夜间、黎明、黄昏和雨天场景[14] 感知任务 - 目标检测任务需准确定位和识别物体,2D检测输出类别和2D边界框,3D检测包括3D位置坐标、尺寸和航向角[16] - 语义分割任务将场景中的每个基本单元分类为语义类别[17] - 深度估计任务从传感器数据获取场景深度信息,为具身智能体提供3D几何理解[17] - 占用预测任务提供对3D空间的密集语义理解,通过离散化3D空间为体素预测占用状态和语义类别[17] 多模态融合方法 - 点级融合方法集成点云几何坐标信息与图像语义细节,如PointFusion、PointPainting等方法[23][24] - 体素级融合方法将LiDAR点云转换为规则网格,如CenterFusion、VPFNet等方法[25][26] - 区域级融合方法从2D图像和其他模态聚合特定区域信息,如AVOD、RoarNet等方法[28][29] - 多级融合方法从不同级别集成多模态信息,如MVX-Net、EPNet等方法[30][31] 多智能体融合方法 - 协作感知技术可集成多个智能体和基础设施的感知数据,解决遮挡和传感器故障问题[35] - CoBEVT通过稀疏Transformer生成BEV分割预测进行协作处理[35] - V2VNet基于图神经网络融合多辆车的中间特征表示[36] - When2Com框架学习构建通信组和通信时机,减少带宽使用[37] 时间序列融合方法 - 密集查询方法为高分辨率3D或BEV空间中的每个查询点分配固定位置,如BEVFormer、BEVFormer v2[40][41] - 稀疏查询方法因其效率、准确性和适用于稀疏感知任务而受欢迎,如StreamPETR、Sparse4D系列[42][43] - 混合查询方法结合密集和稀疏查询范式,如UniAD、FusionAD等方法[45][46] 多模态LLM融合方法 - 视觉-语言方法结合视觉和文本数据进行语义对齐,如X-Driver、Mpdrive等方法[50] - 视觉-LiDAR-语言方法集成视觉、LiDAR和语言数据进行3D空间理解,如DriveMLM、MAPLM等方法[51][52]
保姆级分享!ALOHA:低成本双臂机器人结合模仿学习经典工作
具身智能之心· 2025-06-27 08:36
ALOHA系统概述 - 一种低成本开源的双臂遥控操作系统,全称为A Low-cost Open-source Hardware System for Bimanual Teleoperation [4][5] - 成本控制在20k美元以内,使用现成机械臂和3D打印组件,2小时可完成组装 [7][8] - 支持精确操作、接触式操作和动态操作三类任务 [20][22] 核心技术方案 - 采用关节空间映射实现遥控操作,使用WidowX作为主动臂控制ViperX从动臂 [18] - 系统配备4个罗技C922x摄像头(480×640@30FPS),数据记录频率50Hz [19] - 设计了3D打印"透明手指"和防滑胶带增强抓取能力,采用橡皮筋机构平衡重力 [18][21] ACT算法创新 - 提出Action Chunking with Transformers算法解决模仿学习的复合误差问题 [12] - 通过预测k步动作序列(k=100时成功率从1%提升至44%)减少有效任务范围 [52][53] - 引入Temporal Ensembling技术平滑动作执行,提升3.3%成功率 [29][54] - 采用CVAE建模人类演示数据,对人工数据训练时性能提升33.3% [33][55] 实验验证 - 在6个真实任务和2个仿真任务上测试,仅需10-20分钟演示数据 [51] - 调味瓶开启任务达到80-90%成功率,RAM安装等接触任务表现良好 [12][22] - 50Hz控制频率显著优于低频(5Hz时操作时间增加62%) [56] 应用限制 - 无法处理需要多指协同(如儿童药瓶)或大力操作(如开密封瓶)的任务 [57] - 对精细视觉感知要求高的任务(如开糖果包装)成功率较低 [60][61] - 低成本电机扭矩限制导致无法完成某些力量型操作 [57]
3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心· 2025-06-26 14:19
核心观点 - 中科院自动化所提出的BridgeVLA模型通过将3D输入投影为2D图像并利用2D热图进行动作预测,实现了高效且泛化的3D机器人操作学习 [4] - BridgeVLA在仿真和真实场景中均展现出卓越的性能和数据效率,仅需3条轨迹即可在基础任务中达到96.8%的成功率 [4][6] - 该模型在多种泛化性设置中展现出碾压式性能,相较于基线模型取得32%的性能提升 [6] 技术背景 - 现有VLA模型大多只以2D信息作为输入且需要大量数据进行微调,而3D操作策略如PerAct、RVT-2仅需10条轨迹就能取得不错效果 [6] - 2D VLA架构如OpenVLA、pi0借助预训练多模态大模型展现出强泛化能力,但需要上百条专家演示 [9] - 3D操作策略凭借显式空间结构信息具有很高数据效率,但现有3D VLA模型未能实现预期效果 [9] 模型设计 - BridgeVLA通过将3D输入与动作输出统一到2D空间,同时继承2D VLA泛化能力与3D操作策略数据效率 [12] - 训练流程分为2D热度图预训练和3D动作微调两个阶段 [15] - 使用SigLIP视觉编码器和Gemma Transformer构成的PaliGemma作为VLM主干 [15] - 微调阶段通过三视角图像进行动作预测,结合深度图和相机参数反投影得到末端执行器位置估计 [17] 性能表现 - 在RLBench中成功率达88.2%,较基准模型提升6.8% [20] - 在COLOSSEUM环境中较之前SoTA方法提升7.3% [20] - 在GemBench环境中面对全新位置、全新物体考验取得50%成功率 [20] - 真机实验中仅用3条轨迹就达到96.8%基础任务成功率 [25] 行业影响 - BridgeVLA建立起高性能且高数据效率的3D VLA新范式 [26] - 该技术路线有望推动VLA模型持续演进 [27] - 模型对数据要求极低,非常适合在真实机器人系统中部署与扩展 [25]
今年大火的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-26 14:19
目标驱动导航技术概述 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向,要求智能体在陌生环境中仅凭目标描述自主完成探索与路径规划[2] - 与传统视觉语言导航不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁,涉及语义解析、环境建模和动态决策能力[2] 产业化落地现状 - 终端配送场景中,美团无人配送车通过动态路径重规划在复杂城市环境执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署[3] - 医疗/酒店/餐饮场景中,嘉楠科技、云迹科技、擎朗智能的商用服务机器人及美国Aethon的TUG系列实现药品、文件和餐食自主配送[3] - 人形机器人领域,宇树科技Unitree系列通过Habitat预训练完成基础导航,智元机器人集成目标导航模块,特斯拉Optimus展示端到端操作能力[3] 技术发展代际 - 第一代端到端方法:基于强化学习与模仿学习,在PointNav和闭集图片导航任务中SPL指标逼近人类表现[5] - 第二代模块化方法:通过显式构建语义地图分解任务,在零样本ObjectNav任务中未见物体场景成功率显著提升[5] - 第三代LLM/VLM融合方法:利用大语言模型生成语义指导策略,视觉语言模型提升开放词汇匹配精度,当前重点为设计场景表征接口[7] Habitat仿真生态 - 2020年CVPR提出PointNav基准后,评测体系扩展至ImageNav、ObjectNav及移动抓取任务,形成技术闭环[4] - 视觉预训练模型提升特征泛化能力,DDPPO框架使PointNav任务SPL指标显著提升,LLM解决部分开放词汇导航难题[4] - Meta AI的Sim2Real迁移框架为仿真到真实部署提供方法论,CMU与Stanford推动动态环境语义地图更新技术[4] 技术挑战与课程设计 - 学习路径需整合自然语言处理、计算机视觉、强化学习和场景图知识,面临论文碎片化与实战闭环缺失的挑战[9] - 课程覆盖三代技术演进路径(端到端/模块化/LLM融合),包含Habitat仿真生态解析及VLFM算法复现等实战环节[15][16][24] - 学员将掌握零样本导航、开放词汇识别等关键技术,理解Sim2Real部署流程,具备论文级算法改进能力[31]
思岚发布首个消费级水下激光雷达品类-RPLIDAR U1
具身智能之心· 2025-06-26 14:19
产品发布 - 公司发布业内首个消费级水下激光雷达RPLIDAR U1,开启水下高精度激光SLAM导航时代[1] - 新产品面向行业客户开放预约送样[2] 产品特点 - RPLIDAR U1体积仅乒乓球大小,首次将水下激光雷达带入消费级应用门槛[4] - 通过创新技术大幅降低成本,满足消费类产品使用需求[6] - 采用全新系统架构解决水介质特性带来的探测距离下降、噪点增多、精度降低等问题[7] - 具备IPX8防水等级,水下最大探测距离达5米[8] 技术验证 - 产品经过多重测试验证,可应对不同水质、表面材质等水下环境挑战[10][11] - 测试内容包括不同材质和水质条件下的性能表现[13][16] - 最终实现在各类水下环境中稳定工作,性能媲美陆地激光雷达[18] 配套解决方案 - 同步推出SLAMKIT水下版建图定位导航解决方案[20] - 该方案无需里程计支持,提供完整的建图、定位、导航功能[22] 应用场景 - 产品可应用于近海植被勘探、泳池清洁、海底勘探等领域[24][26][29] 商业化进展 - 产品核心性能参数已确定[31] - 目前开放行业客户样品申请和产品预定[32]
ICCV 2025放榜!录取率24%,夏威夷门票你抢到了吗?
具身智能之心· 2025-06-26 14:19
ICCV 2025会议数据 - ICCV 2025共收到11239份有效投稿 录用2699篇论文 录用率为24% [3] - 投稿量较2019年增长近三倍 反映计算机视觉领域快速扩张 [3] - 历史录用率稳定:2023年26 15% 2021年26 20% 2019年25% [6] 学术评审机制改革 - 新政策强化问责制 因审稿人不负责任直接拒稿29篇 其中12篇本应被录用 [4][5] - 建议建立双向评审系统 允许作者评估评审质量 审稿人获得认证 [34][38] - 提出系统性奖励机制 激励高质量评审工作 [36][38] 行业技术趋势 - 深度学习自2012年突破后 在计算机视觉 NLP等领域持续革新 [27] - LLM和生成式AI等颠覆性技术推动研究热情 论文数量激增 [29] - 主流AI会议投稿量超万篇 NIPS 2025或突破3万篇 [31] 代表性研究成果 - 高保真3D几何生成技术 [7] - 十亿级MRI标注医学图像分割数据集 [13] - 自动驾驶风险评估框架OD-RASE [21] - 通用扩散模型UniVG实现图像生成与编辑一体化 [22]
RoboSense 2025 机器感知挑战赛正式启动
具身智能之心· 2025-06-25 13:52
RoboSense Challenge 2025概述 - 核心目标为系统性评估机器人在真实场景下的感知与理解能力,推动多模态感知模型的稳健性研究[1] - 聚焦动态人群、恶劣天气、传感器故障等复杂环境条件下的感知算法性能挑战[1] - 由新加坡国立大学、南洋理工大学等全球7所顶尖研究机构联合主办,并获得IROS 2025官方认证[5] 赛事时间安排 - 注册开放时间为2025年6月[3] - 第一阶段提交截止2025年8月15日,第二阶段截止9月15日[3] - 颁奖典礼于2025年10月19日在IROS 2025杭州主会场举行[3][46] 五大核心挑战任务 语言驱动的自动驾驶 - 要求构建端到端多模态驾驶模型,实现语言指令到规划轨迹的闭环控制[6][7] - Baseline模型Qwen2.5-VL需4块A100 GPU训练12小时,感知准确率75.5%[13] - 关键技术难点包括多模态时序融合、语言指令泛化及弱感知条件下的决策[13] 社交导航 - 基于RGB-D输入实现符合人类社交规范的动态路径规划[14][15] - Baseline模型Falcon成功率55.84%,需4块RTX 3090训练48小时[19] - 需解决动态行为建模与隐式社交规则编码问题[17] 传感器布局优化 - 评估3D感知模型对不同LiDAR安装配置的适应性[20][21] - Baseline模型BEVFusion-L的mAP为48.8%,单卡RTX 4090需16小时训练[26] - 关键技术包括视角差异建模与结构对齐模块设计[27] 跨模态无人机导航 - 建立语言描述与空地视角图像的语义映射关系[28][29] - Baseline模型GeoText-1652的R@1为13.6,需2块RTX 4090训练12小时[34] - 需解决视角转换带来的纹理缩放与空间反转问题[33] 跨平台3D目标检测 - 要求模型在车辆/无人机/四足机器人等平台保持检测一致性[34][35] - Baseline模型ST3D++的Car AP@0.5为33.7%,单卡RTX 3090训练24小时[39] - 核心挑战为跨平台Domain Gap与视角仿射变化适应[39] 赛事资源与评测 - 提供多源多模态真实场景数据支持研究复现[9] - 采用统一评测平台确保公正性,如codabench.org/eval.ai等[14][19][26][34][39] - 开放Toolkit与代码资源库github.com/robosense2025[8] 奖项设置 - 总奖金池超10,000美元,一等奖奖金5,000美元[40][41] - 设立创新奖(每赛道2项)及参与奖(完成有效提交即可获证明)[40]
同济大学最新!多模态感知具身导航全面综述
具身智能之心· 2025-06-25 13:52
核心观点 - 目标导向导航技术已从简单的几何路径规划发展为复杂的多模态推理,整合了视觉、语言和音频信息 [7] - 首次将导航方法按推理域分类,揭示了不同任务间的共性和差异,提供了统一框架 [4] - 多模态感知集成是未来趋势,特别是视觉、语言和音频处理的融合 [4] - 显式地图方法在路径规划中表现优异但计算成本高,隐式表示方法计算效率高但复杂环境泛化能力受限 [4] 研究背景 - 导航任务从PointNav发展到ObjectNav、ImageNav和AudioGoalNav等复杂范式 [3] - 任务形式化定义为决策过程,包含环境、状态空间、观测空间、动作空间和目标空间 [8] - 过去十年技术发展从低级感知到高级语义理解结合 [7] 导航数据集 - Habitat-Matterport 3D (HM3D)是最大数据集,含1000个建筑规模重建,覆盖112.5k平方米可导航区域 [9] - Matterport3D导航复杂性最高,RoboTHOR和ScanNet相对简单 [9] - HM3D视觉保真度最佳,ScanNet重建缺陷最多 [9] 评估指标 - 成功率(SR)和路径长度加权成功率(SPL)是核心指标 [14] - 音频导航特有指标包括声音导航效率(SNE)和动态SPL(DSPL) [14] - 多目标导航指标包括进度(PR)和路径长度加权进度(PPL) [14] 点目标导航 - 需根据相对坐标导航到目标位置,无环境布局先验知识 [13] - 显式地图方法如ANM通过神经SLAM构建地图 [15] - 隐式表示方法如DD-PPO通过分布式训练提高可扩展性 [16] 目标对象导航 - 需在未知环境中找到并导航到特定对象,需要语义理解 [17] - 模块化方法如Sem-EXP构建语义地图 [17] - 端到端方法如VTNet直接从原始感官输入学习策略 [17] - 零样本方法如EmbCLIP利用预训练视觉语言模型 [17] 图像目标导航 - 需根据参考图像导航到目标位置,需要视觉推理能力 [22] - 显式地图方法如MANav通过自监督状态嵌入网络增强导航 [23] - 隐式表示方法如EmerNav估计观察和目标图像匹配特征 [24] 音频目标导航 - 需整合空间音频处理、视觉感知和路径规划 [25] - 显式地图方法如VAR结合视觉映射和声音定位 [25] - 隐式表示方法如SAVi处理静态声源导航 [26] 当前挑战 - 模拟环境与现实世界存在显著差异,尤其在物理动态和传感器噪声方面 [31] - 多模态集成最优策略仍是开放性问题,常优先考虑单一感官模态 [31] 未来工作 - 需开发人机交互系统,结合自动化泛化和战略性人类互动 [32] - 需开发真正平衡集成的多模态表示学习方法 [32] - 需建立统一的环境理解框架 [32]