具身智能之心

搜索文档
足球还是靠机器人吧!首届机器人运动会闭幕:票价终究保守了
具身智能之心· 2025-08-19 01:54
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 男篮亚洲杯中国队1分憾负澳大利亚,但另一边绿茵场上,中国机器人传来好消息: 1-0战胜人形机器人版德国战车,再次将世界冠军收入囊中。 获得胜利的是清华火神队。 只见身穿红色队服的火神队1号一脚大力抽射,足球命中德国队球员坚硬的后脚跟,直接回弹入网! 这一波啊,其实战术是翻袋(doge)。 一记乌龙球,奠定这场5v5机器人足球赛最终的胜负之势。而这样的让观众们一边鼓掌欢呼一边忍俊不禁的场面,亦是本届 世界人形机器人运 动会 的小小缩影。 怎么说?值此闭幕之际,一起来复盘一波机器人冠军们的 鬼畜 名场面吧~ 名场面,够帅也够鬼畜 首先来看宇树7块金牌之一的100米障碍赛。 G1跨栏动作一出,现场欢呼声之巨,毫不逊于人类运动会。 最终,宇树以 33.71秒 的成绩拿下这项比赛的冠军。 但其实嘛,是有机会更快的,如果不是…… 画面转到自由搏击赛场,决赛选手这架势确实帅气,看后边蓝衣服大哥的反应就知 ...
哈工深提出UAV-ON:开放世界空中智能体目标导向导航基准测试
具身智能之心· 2025-08-19 01:54
研究背景 - 提出首个大规模开放世界环境中基于语义目标指令的无人机目标导航基准UAV-ON,定义超过11000个导航任务,涵盖14个高保真户外场景 [2] - 现有无人机导航研究多依赖视觉语言导航(VLN)范式,限制其在开放世界环境中的可扩展性和自主性 [2] - 目标导航(ObjectNav)仅基于语义线索定位目标物体,但在大规模非结构化户外环境中的空中导航潜力尚未充分探索 [2] 任务定义 - UAV-ON定义开放世界环境中的实例级目标导航任务,无人机需根据语义指令导航到目标物体 [5] - 任务要求无人机在复杂真实环境中执行离散参数化动作,处理障碍物规避和碰撞动力学等现实挑战 [2] 环境感知与动作空间 - 无人机配备多视角RGB-D相机(前方、左方、右方和下方),获取多模态观测,不依赖全局定位信号如GPS [7] - 动作空间采用参数化设计,包括平移(前进、左移、右移、上升、下降)、旋转(左转、右转)和停止 [7][14] - 动作物理执行并需通过碰撞检测,任何与障碍物接触视为失败 [14] UAV-ON基准 - 包含14个高保真户外环境,涵盖村庄、城镇、城市、公园等多样化景观 [12] - 目标物体放置采用基于提示的对象映射策略,利用大型语言模型生成候选物体并手动筛选 [12] - 场景水平尺度从350×250到1400×1250单位,共放置1270个目标物体,覆盖约900万平方单位区域 [15] 数据集分析 - 训练集使用10个环境生成10000个导航episode,测试集包含1000个episode分布在10个训练环境和4个额外环境 [15] - 评估指标包括成功率(SR)、Oracle成功率(OSR)、成功距离(DTS)和路径长度加权成功率(SPL) [15] 基线方法与实验结果 - 基线方法包括随机策略(Random)、基于CLIP的启发式探索(CLIP-H)和空中目标导航智能体(AOA) [15] - AOA-V在Oracle成功率(OSR)上表现最佳,但成功率(SR)和SPL较低 [16] - AOA-F在成功率(SR)和SPL上表现更一致,但探索范围略逊于AOA-V [17] - CLIP-H在SPL上表现较好,但对语义目标理解有限 [17] - 随机策略在所有指标上表现最差 [17] 终止行为与安全导航 - AOA-V探索能力强但停止动作不稳定,AOA-F运动和停止动作较平衡但接近障碍物时易失败 [20] - CLIP-H停止动作可靠性高但探索不够积极,随机策略无目标意图表现最差 [20] - 所有方法碰撞率超过30%,与现实世界无人机安全运行要求存在显著差距 [20] 结论与未来工作 - UAV-ON验证了语义推理、障碍物感知探索和目标定位的复合挑战 [24] - 需开发更安全可靠的控制策略以满足复杂环境中无人机自主运行需求 [24]
2025世界人形机器人运动会:从赛场到市场,优理奇机器人两金一银背后的商业化布局
具身智能之心· 2025-08-18 11:32
赛事概况 - 2025年世界人形机器人运动会于8月17日闭幕,包含26个赛项和487场竞技对决[1] - 世界人形机器人运动联合会(WHRGF)正式成立,第二届赛事将于2026年8月在北京举办[1] - 宇树科技以11枚奖牌(4金3银4铜)位居奖牌榜首位,北京人形以10枚奖牌(2金6银2铜)位列第二[2] - 优理奇科技(UniX AI)以2金1银共3枚奖牌位列总奖牌榜第三名[3] 优理奇科技赛事表现 - 在酒店迎宾服务和酒店清洁服务两个赛项中获得金牌,酒店清洁服务获得银牌[3] - 采用Wanda系列通用人形机器人参赛,具备长序列推理能力和全自主完成能力[10] - 在严苛赛制下(360°无死角评测、全程自主执行)成功完成长序列任务[9] 技术优势 - 自研三位一体算法:UniFlex(可泛化模仿学习框架)、UniTouch(全球首个融合触觉的多模态感知模型)、UniCortex(长程任务规划推理架构)[12] - 硬件创新:自主研发8自由度机械臂(超越人类手臂7自由度设计)、轻量化大扭矩关节模组[13] - 机械臂重复定位精度高、响应速度快,支持复杂空间路径规划和末端姿态控制[13] - Wanda机器人热身两天即实现泛化抗干扰,适应现场光照变化和人物干扰[10] 商业化进展 - 轮式双臂机器人于2025年2月开始量产交付,在商业/安保/娱乐/服务及C端完成超千万元订单和数百万回款[15] - 已正式上线京东平台,入门版本售价8.8万元,配置京东大模型版本售价9.9万元[21][22] - 与酒店集团、物业公司、养老社区等B端合作伙伴拓展合作[21] 应用场景 - 酒店服务:可完成迎宾引导、清洁整理等全流程服务,无需额外硬件改造[17] - 养老服务:具备算法和力控优势,可完成家务型任务并提供老人陪伴与基础照护[19] - 未来可能扩展至零售、教育、医疗和工业运维等领域[24] 团队与研发 - 2024年4月组建团队,拥有50余位全球顶尖研发人员(发表400余篇顶会论文)和20余位行业领军者[15] - 创始人杨丰瑜为耶鲁大学博士,全球首个触觉融合多模态大模型UniTouch第一作者[15] - 首席科学家王贺升为上海交大电气学院副院长、国家杰青,机器人领域顶尖专家[15] - 已开发两代轮式双臂机器人Wanda和双足灵巧手版本机器人Martian[15]
VLA/强化学习/VLN方向的论文辅导招募!
具身智能之心· 2025-08-18 06:00
具身智能论文辅导服务 - 提供1v1论文辅导服务 目前开放3个名额 方向包括vla 强化学习 sim2real [1] - 目标会议涵盖CVPR ICCV ECCV ICLR CoRL ICML ICRA等顶级学术会议 [1] - 辅导老师具备具身学术领域活跃研究经验 能够提供创新性研究思路 [1] 服务咨询方式 - 可通过添加微信oooops-life进行咨询 [2] - 支持扫码直接联系 需备注"具身论文辅导咨询" [2]
近2000人了,这个具身智能社区竟然私藏了这么多东西......
具身智能之心· 2025-08-18 06:00
社区规模与定位 - 具身智能之心知识星球是国内首个具身全栈技术社区 集视频、图文、学习路线、问答、求职交流为一体 目前成员近2000人 目标未来2年内达到近万人规模 [1][3][18] - 社区成员覆盖国内外知名高校和头部企业 高校包括斯坦福大学、加州大学、清华大学、西湖大学、上海交大等 企业包括智元机器人、有鹿机器人、优必选、小米、逐际动力等 [18] 技术内容体系 - 汇总40+开源项目、60+具身智能数据集、行业主流仿真平台及技术学习路线 [18] - 覆盖30+技术路线 包括具身感知、强化学习、VLA模型、Diffusion Policy、多模态大模型、机器人导航等 [4][18][42][46][48][54][56] - 提供具体技术解决方案 包括数据采集、模型部署、sim2real、分层决策、机械臂抓取等 [1][8][69] 行业资源整合 - 汇总国内外具身智能高校实验室和机器人公司 涉及教育、工业、医疗、物流等多个领域 [21][23] - 整合行业研报、机器人书籍、零部件品牌(芯片、激光雷达、相机等)、ToF与3D相机资源 [25][28][30][34] - 建立企业内推机制 与多家具身公司合作提供岗位对接 [10][19] 社区活动与服务 - 定期举办圆桌论坛和直播 主题涵盖本体、数据、算法等前沿技术 [1][4][74] - 提供个性化问题解答 包括设备使用、数据采集、项目部署、研究方向选择等 [1][77][79][80][82] - 为不同阶段成员提供支持 包括小白入门技术栈、产业项目方案、学术与工业进展同步 [13][15][19] 典型用户案例 - 自动驾驶SLAM工程师寻求向具身智能转型 建议关注视觉语言导航和深度学习化SLAM方向 [80] - 研三学生面临职业选择 社区提供具身感知、强化学习等技术转型路径及行业窗口期分析 [82][83] - 研一学生寻求仿真环境项目建议 社区推荐Isaac Sim框架及项目问题解决经验包装 [79]
VLA+RL还是纯强化?从200多篇工作中看强化学习的发展路线
具身智能之心· 2025-08-18 00:07
视觉强化学习综述 核心观点 - 该综述对视觉强化学习(VRL)领域进行系统性梳理,整合200+篇研究成果,提出四大主题支柱:多模态大型语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,并分析算法设计、奖励工程及评估协议 [5] - 强调强化学习在视觉任务中的关键作用,包括跨模态对齐、长序列优化及可验证奖励设计,同时指出开放挑战如推理效率、长视野信用分配等 [47] 研究框架 强化学习范式 - **RLHF(基于人类反馈的强化学习)**:通过三元组偏好数据训练奖励模型,结合PPO优化策略,三阶段流程(监督预训练→奖励建模→策略优化)成为主流 [10] - **DPO(直接偏好优化)**:绕过奖励建模环节,直接通过封闭式监督目标优化策略,降低计算成本 [11] - **RLVR(带可验证奖励的强化学习)**:用确定性验证信号(如代码测试结果)替代人类偏好,提升客观性 [12] 策略优化算法 - **PPO(近端策略优化)**:通过重要性采样和广义优势估计实现稳定策略更新,依赖精确奖励模型 [15] - **GRPO(群体相对策略优化)**:利用群体归一化优势信号替代价值网络,降低内存消耗并提升训练稳定性 [16] 应用领域 多模态大型语言模型 - **传统方法**:通过GRPO/PPO将视觉-语言模型与可验证奖励对齐,如RePIC、GoalLadder等 [17] - **空间感知**:2D任务(目标检测、分割)和3D任务(布局推理)均采用规则驱动奖励和KL正则化微调 [18] - **视频推理**:分层奖励设计(如VQ-Insight)和时间衰减回报(如TW-GRPO)解决长序列挑战 [20] 视觉生成 - **图像生成**:DiffPPO等结合扩散模型与感知奖励(如ImageReward),提升生成质量 [21] - **3D生成**:DreamCS等通过渲染-比较循环优化几何结构,强化学习实现标准方法难以达到的保真度 [24] 视觉-语言-动作模型 - **GUI自动化**:规则驱动奖励(如GUI-R1)和群体归一化更新(如UIShift)推动跨平台交互 [28] - **视觉导航**:OctoNav-R1等结合第一人称视觉与低级动作控制,通过混合强化学习管道提升泛化性 [29] 评估体系 - **多模态模型**:结合外部基准(如MME)、人类偏好奖励和KL散度监控 [35] - **视觉生成**:FID/CLIP Score等传统指标与去噪轨迹诊断结合 [36] - **GUI任务**:在线成功率与逐步奖励设计(如Mind2web)平衡稀疏信号问题 [39] 未来方向 - **自适应推理**:通过终止评论者动态平衡深度与效率 [43] - **长视野优化**:子目标发现与对比视觉-语言评论者缓解稀疏奖励问题 [44] - **奖励模型设计**:需开发抗攻击、跨模态且用户可定制的综合奖励函数 [46]
VLA/VLA+触觉/VLA+RL/具身世界模型等方向教程来啦!
具身智能之心· 2025-08-18 00:07
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 具身智能的核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行) 类比人类神经系统结构 [1] 产业动态 - 近2年星海图 银河通用 逐际动力等明星团队从实验室走向商业化 推动本体与大小脑技术进步 [3] - 国内华为2024年启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人攻关关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力 强化物流与家庭服务场景能力 [5] - 国际方面Tesla/Figure AI聚焦工业物流机器人 Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人 [5] 技术演进路径 - **第一阶段**:抓取位姿检测(Grasp Pose Detection) 通过点云/图像预测末端执行器姿态 但缺乏任务上下文建模 [6] - **第二阶段**:行为克隆(Behavior Cloning) 通过专家数据学习端到端映射 存在泛化能力弱 误差累积问题 [6] - **第三阶段**:2023年Diffusion Policy引入序列建模 2024年VLA模型实现多模态协同 支持零样本泛化 [7] - **第四阶段**:2025年探索VLA与强化学习 世界模型 触觉感知融合 解决反馈 预测与触觉局限 [8] 应用与产品 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗等场景落地 [9] - 行业岗位呈现爆发式增长 吸引大量从业者转入具身智能领域 [9] 技术体系与课程 - 课程系统梳理大脑+小脑技术路线 涵盖灵巧手 移动操作 人形机器人方法 [15] - 包含主流仿真框架配置 DP/VLA/VLA+RL/VLA+触觉等方法详解 以及世界模型下一代范式 [15] - 实践环节覆盖Sim2Real演进 IsaacGym/Mujoco仿真环境 Diffusion Policy代码实战 VLA模型训练等 [21] - 目标群体包括具身算法从业人员 研究方向学生 以及传统CV/自动驾驶转行者 [24][29]
具身智能之心灵巧手与触觉感知交流群来啦!
具身智能之心· 2025-08-18 00:07
具身智能技术交流群成立 - 具身智能领域聚焦心灵巧手与触觉感知技术 成立专业交流群 涵盖灵巧手相关运控 算法 硬件 VTLA等技术方向 [1] - 交流群目标为促进产业与学术结合 推动工程落地实践 形成技术协同效应 [1] - 入群方式需通过指定微信账号申请 备注需包含灵巧手关键词及个人昵称信息 [2]
NIPS 2025 MARS 多智能体具身智能挑战赛正式启动!
具身智能之心· 2025-08-18 00:07
具身智能新挑战 - 单一智能体难以胜任复杂多变的任务场景,多具身智能体系统(如人形机器人、四足机器人、机械臂)成为实现通用自主的关键力量[3] - 多具身智能体需要在复杂环境中制定高层任务计划并稳健执行精细操作,但面临异构机器人、不同感知能力与部分可观测性等难题[3] - MARS Challenge通过两条互补赛道推动具身智能研究向真实世界落地,鼓励探索高层规划与低层控制能力[3][4] 赛道1:多智能体具身规划 - 面向异构机器人协同配合环境下的高层任务规划与角色分配,基于ManiSkill平台与RoboCasa数据集[5] - 通过视觉大语言模型完成智能体选择和动作分配,根据自然语言指令挑选最优机器人组合并制定高层动作序列[5][6] - 评估视觉大语言模型在多智能体分配、角色指派与符号规划等方面的推理能力,模拟现实环境中的协作[7][8] 赛道2:多智能体协同控制 - 致力于推动多智能体系统在复杂任务中的协作能力,如机械臂紧密配合堆叠方块等[12] - 基于RoboFactory仿真环境,要求智能体在动态、部分可观测条件下实时交互,设计端到端可部署控制模型[12][13] - 参赛者需通过仿真平台收集数据训练模型,最终提交部署后的模型供测试[12] 比赛安排与参与方式 - 时间安排:热身赛2025年8月18日开启,正式赛9月1日开启,10月31日结束,12月公布结果[25] - 参赛方式:通过比赛主页、微信交流群或Discord群参与,联系邮箱为marschallenge2025@gmail.com[25] - 比赛结果将在NeurIPS 2025的SpaVLE Workshop上公布,参赛者有机会赢得奖金并共同撰写报告[4][25] 行业展望 - 未来不同形态的智能体将协作完成超越单一能力边界的任务,MARS Challenge是推动多具身智能体走向通用自主的重要一步[26] - 该挑战为机器人、计算机视觉、自然语言处理及多模态AI领域的研究者提供了展示创意与技术的全球舞台[26][27]
扩散世界模型LaDi-WM大幅提升机器人操作的成功率和跨场景泛化能力
具身智能之心· 2025-08-18 00:07
核心观点 - 国防科大、北京大学、深圳大学团队提出LaDi-WM(Latent Diffusion-based World Models),一种基于隐空间扩散的世界模型,用于预测隐空间的未来状态,提升机器人操作性能 [1] - LaDi-WM利用预训练的视觉基础模型构建隐空间表示,包含几何特征和语义特征,具有广泛通用性,有利于机器人操作的策略学习和跨任务泛化 [1] - 团队设计了一种扩散策略,通过整合世界模型生成的预测状态迭代优化输出动作,在LIBERO-LONG数据集上成功率提升27.9% [2] - 该方法在虚拟和真实数据集上均表现出色,在真实场景中将原始模仿学习策略的成功率显著提升20% [26] 技术方法 - 世界模型学习阶段:通过预训练的视觉基础模型提取几何表征(DINOv2)和语义表征(Siglip),并在扩散过程中让二者交互,学习依赖关系 [10] - 策略模型训练与迭代优化:将世界模型的未来预测作为额外输入引导策略学习,基于扩散策略模型架构,迭代优化动作输出 [12] - 框架分为世界模型学习和策略学习两大阶段,通过任务无关的片段学习隐扩散世界模型,再利用未来状态预测优化策略模型 [9] 实验结果 虚拟实验 - 在LIBERO-LONG数据集上,仅用10条轨迹训练,达到68.7%的成功率,显著优于其他方法(DreamerV3 33.5%,ATM 44.0%,Seer 53.6%) [15][16] - 在CALVIN D-D数据集上,平均完成任务数量为3.63,优于Seer(3.60)和ATM(2.98) [17] - 跨场景实验中,在LIBERO-LONG训练的世界模型应用于CALVIN D-D策略学习,性能比CALVIN环境训练的原始策略高0.61 [21] 真机实验 - 在真实场景操作任务(叠碗、开抽屉、关抽屉、抓取物体放入篮子等)中,将原始模仿学习策略的成功率从40.0%提升至60.0% [26] - 提出的策略在不同光照条件和初始位置下表现出鲁棒的泛化性 [25][27] 创新点 - 基于隐空间扩散的世界模型:使用视觉基础模型构建隐空间的通用表示,学习可泛化的动态建模能力 [5] - 基于世界模型预测迭代优化的扩散策略:利用未来预测状态反馈给策略模型,迭代优化动作输出 [6] - 通过交互扩散过程学习几何与语义表征之间的依赖关系,促进准确动态预测 [10]