Workflow
具身智能之心
icon
搜索文档
Qwen要做机器人了:林俊旸官宣成立具身智能团队
具身智能之心· 2025-10-10 00:02
阿里通义千问的具身智能战略动向 - 公司在Qwen内部组建了一个小型机器人、具身智能团队,标志着其模型正式向物理世界迈进 [2] - 此举旨在检验模型在真实场景中的理解、规划与执行能力,并反向促进模型在感知融合、因果推理等方面的进化 [10] - 公司此前已通过阿里云领投自变量机器人近10亿元A+轮融资,这是阿里云首次领投具身智能企业 [7] Qwen系列模型的技术优势与优化 - Qwen系列模型在空间理解、路径规划、长上下文记忆方面具备优势,已成为众多具身智能公司使用的基座模型 [8] - 新发布的Qwen3-VL针对细粒度视觉理解、视频时序理解、3D感知与规划等能力进行了专门优化,以更好地支持具身智能落地 [8] - 在走访的30多家具身智能公司中,绝大多数都在使用Qwen-VL进行后训练 [8] 行业背景与市场前景 - 英伟达首席执行官黄仁勋表示,人工智能与机器人是核心技术机遇,有望为公司带来数十万亿美元的长期增长潜力 [10] - 软银集团宣布将以54亿美元现金收购ABB的机器人业务,旨在将人工超级智能与机器人深度融合 [12][13] - 花旗集团预计,到2050年,全球机器人市场规模将达到7万亿美元,吸引大量资本涌入 [14] - 风险投资持续涌入人形机器人赛道,生成式AI与机器人技术的融合被认为将根本改变人机交互方式 [10] 阿里云的行业布局与战略意图 - 阿里云基于在AI大模型和智驾方面的积累,表示已为深度支持具身智能行业做好准备 [10] - 成立具身智能团队有助于加强公司自身对行业的理解,并与众多具身智能公司展开合作 [10] - 公司的入局为全球科技巨头纷纷加码的机器人赛道增添了新的变量 [10]
不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
具身智能之心· 2025-10-10 00:02
强化学习提升大模型推理能力的机制 - 强化学习能提升大语言模型的复杂推理能力,但其内在机制此前不明朗 [2][5] - 研究首次揭示大模型通过类人方式学会推理,即将高层策略规划与底层程序执行相分离 [3][12] - 核心机制是模型先固化基础执行能力,再自主发展出策略规划能力 [13] 两阶段学习动力学 - 第一阶段为底层技能巩固,模型专注于掌握低级技能,如算术计算和格式规范,表现为执行token的熵值急剧下降 [14][23][24] - 第二阶段为高层规划探索,学习重心转向高级策略规划,表现为规划token的语义多样性提升,并与推理能力提升及解决方案链条延长直接相关 [14][17][28] - 对于强模型或易学习数据,第一阶段可能短暂甚至不存在 [27] 对特定现象的解释 - “顿悟时刻”是模型发现、掌握并强化某种高层策略(如自我反思)时的行为特征信号,并非偶然灵光 [33][34] - “长度缩放”现象源于更好的规划,模型探索到更丰富精细的策略后自然生成更长、更有结构的推理链条,导致输出越长越准 [35][37][38] - 整体token级熵值下降是因大量执行token变得高度可预测,而规划token的语义熵上升才真实反映策略探索进展 [39][40] 新算法HICRA的性能优势 - 针对现有RL方法对所有token无差别优化导致学习信号稀释的问题,提出了分层感知信用分配机制HICRA,其核心是聚焦稀疏但高价值的规划token的学习权重 [41][42][44] - 在多项数学推理基准测试中,HICRA持续超越GRPO基线方法,例如在Qwen3-4B-Instruct模型上,AIME24任务得分从GRPO的68.5提升至HICRA的73.1,提升5.4个百分点 [45][46] - 在多模态推理基准测试中,HICRA也表现优异,如在MiMO-VL模型上,Math Vista任务得分从GRPO的73.7提升至HICRA的80.7,提升7.0个百分点 [47] 关键指标与错误分析 - 语义熵是衡量策略探索的有效指标,能避免token级熵值和Pass@K指标的缺陷,清晰显示策略多样性并与性能提升正相关 [56][58][59] - 强化学习的主要优势在于修正高层策略失误(如逻辑缺陷、计划错误),而非细微的计算错误 [50][51] - 大多数高熵token并非规划token,仅依靠熵值识别具有精确语义功能的token存在局限性 [64][65]
DemoGrasp:一次演示是怎么实现灵巧手通用抓取的?
具身智能之心· 2025-10-10 00:02
技术方法与核心创新 - 提出DemoGrasp方法 一种简单高效的通用灵巧抓取学习方法 仅需从抓取特定物体的单条成功演示轨迹出发 通过编辑轨迹中的机器人动作来适配新物体与新姿态 [2] - 将轨迹编辑过程构建为单步马尔可夫决策过程 在仿真环境中通过强化学习对适用于数百个物体的通用策略进行并行优化 奖励函数设计简洁 仅包含二元成功项与碰撞惩罚项 [2] - 该方法展现出优异的迁移能力 仅在175个物体上完成训练 却在6个未见过的物体数据集上 针对不同灵巧手硬件构型实现了84.6%的平均成功率 [2] 性能表现与实验结果 - 在仿真实验中 使用Shadow手操作DexGraspNet数据集物体时 DemoGrasp的成功率达到95% 性能超越现有最优方法 [2] - 借助基于视觉的模仿学习 该策略成功抓取了110个未见过的真实物体 包括小型和薄型物体 并能适配空间位置 背景与光照的变化 [3] - 策略支持RGB与深度两种输入类型 并且可扩展至杂乱场景下的语言引导抓取任务 [3] 应用前景与行业意义 - DemoGrasp提出了一套简单 高效 可扩展的强化学习框架 对任意一款灵巧手 只要采集一条抓取演示 就能学会对所有物品的通用抓取策略 [6] - 方法在六款灵巧手本体 六个物体数据集上得到了广泛验证 且通过sim2real在真机上对110种物品实现高成功率抓取 [6] - 灵巧手的设计与难题是打通"手-眼-脑"感知闭环的关键技术 [10]
DexCanvas:具身数据的规模、真实、力觉真的突破不了三缺一吗?
具身智能之心· 2025-10-10 00:02
文章核心观点 - 灵巧抓取是机器人具身智能领域面临的主要技术瓶颈,其核心挑战在于缺乏大规模、高质量、包含力觉信息的多模态操作数据 [1][2][11][12][13] - 灵巧智能科技有限公司发布的DexCanvas数据集通过“真实+合成数据”双轮驱动模式,提供了包含完整力/接触标注的大规模人手操作数据,旨在解决行业数据瓶颈 [15][16][21] - DexCanvas数据集在采集效率、数据质量和成本间取得了平衡,其基于真实人类演示并通过物理仿真恢复力控的方法,显著提升了数据的规模与泛化能力,为物理智能的发展提供了基础设施级解决方案 [20][21][27][30] 现有灵巧抓取与数据采集方案 - 灵巧抓取的学习方法主要分为模仿学习和强化学习两类,模仿学习通过观察演示学习,强化学习则通过设定奖惩机制学习,但后者需要大量训练数据和精心设计的机制以确保稳定性 [4] - 数据采集主要依赖遥操作技术,包括基于视觉的方案、动捕方式以及VR/AR等,其中动捕系统对光照变化和遮挡具有较强鲁棒性,而视觉方案常受环境因素影响 [5] - 现有灵巧手硬件主要分为两指夹爪和多指拟人化手,两指夹具简单可靠但自由度低,而具备20+自由度的拟人化手更适应为人类设计的环境 [2] 灵巧操作数据面临的定律与瓶颈 - 行业数据存在“规模、真实性、力觉信息只能三选二”的定律,大规模开源数据集往往缺乏关键的力控信息 [6][7] - 真实场景下的灵巧操作数据采集成本极高,开源数据集通常仅数万条且不含触觉信息,而仿真数据虽可达百万甚至亿万级别,但sim2real泛化成功率有时低于70% [9][10] - 技术瓶颈在于难以在复杂操作中实时感知微小力度变化,且传统方法因高维度和复杂接触动力学而泛化能力不足,核心问题是大规模高质量多模态数据的缺失 [11][12][14] DexCanvas数据集的突破与优势 - DexCanvas弥补了开源数据集力/触觉信息的缺失,每条轨迹都包含完整的多指力/接触标注,并为20+自由度系统优化 [16][17] - 数据集提供了从动捕到MANO拟合、物理重演至五指灵巧手执行的全套处理代码,并在HuggingFace上提供了预处理后的可直接训练版本 [18][19] - 数据集综合指标优于常规方案,在效率、成本和质量上取得平衡,采集效率与仿真同为五星,成本为三星,质量为四星 [20] - 数据集包含超1000小时真人多模态演示数据与10万小时物理仿真合成数据,涵盖亚毫米级轨迹和物理一致的接触力信息,包含4种同步模态 [21] DexCanvas的数据生成方法与特性 - 数据生成分为三步:使用20个动捕相机以亚毫米精度采集真人演示;通过物理仿真环境下的强化学习智能体复现动作以恢复力控;通过改变物体参数将1000小时演示扩充为10万小时增强数据 [25][27][28] - 该方法基于真实人类演示,仿真用于“显影”隐藏的物理信息,而非从零生成动作,避免了仿真漏洞,且仿真的是人手而非特定机器人手,使其具备极佳的跨平台泛化能力 [27][30] - 独创的物理信息完备的操作轨迹复刻流程,自动生成了缺失的力觉和接触信息,力控数据在规模扩充后得以保持 [22][29]
Qwen终于要做机器人了:林俊旸官宣成立具身团队!
具身智能之心· 2025-10-09 06:39
阿里通义千问的具身智能战略动向 - 阿里通义千问大语言模型负责人官宣在Qwen内部组建小型机器人、具身智能团队,标志着公司正式进入机器人领域[1] - 多模态基础模型正转变为基础智能体,这些智能体可利用工具和记忆通过强化学习进行长程推理,并应从虚拟世界走向物理世界[1] 阿里在具身智能领域的投资与布局 - 阿里云作为领投方之一参与自变量机器人近10亿元A+轮融资,这是阿里云首次领投具身智能企业[4] - 基于在AI大模型和智驾方面积累的能力,阿里云已为深度支持具身智能行业做好准备,并将与众多具身智能公司展开合作[7] Qwen系列模型的技术优势与优化 - 在走访的30多家具身智能公司中,绝大多数使用Qwen-VL做后训练,因其在空间理解、路径规划、长上下文记忆方面的长板能解决核心痛点[5] - 新发布的Qwen3-VL针对细粒度视觉理解、视频时序理解、3D感知与规划以及带图推理和视觉交互能力进行了优化,为具身智能落地提供更强基础模型支撑[5] 具身智能对模型发展的反向促进作用 - 模型正式走入物理世界能检验其在真实场景中的理解、规划与执行能力,并反向促进模型能力演化[7] - 在物理世界中面对复杂反馈、噪声与不确定性将迫使模型在感知融合、因果推理和长程记忆等方面不断进化[7] - 具身化为Qwen带来新的数据与应用空间,让模型从文字世界延展到机器人、自动化、交互式设备等更广阔落地场景[7] 全球科技巨头在机器人领域的动向 - 英伟达首席执行官表示人工智能与机器人是公司两大核心技术机遇,有望带来数十万亿美元的长期增长潜力[7] - 英伟达计划通过其技术为数十亿台机器人、数亿辆自动驾驶汽车以及数十万座机器人工厂提供算力支撑[8] - 软银集团以54亿美元现金收购ABB的机器人业务,旨在将人工超级智能与机器人深度融合[9][10] 机器人市场前景与资本涌入 - 花旗集团预计到2050年全球机器人市场规模将达到7万亿美元[11] - 凭借巨大市场潜力,该领域正吸引包括政府基金在内的大量资本加速涌入[11]
新手如何挑选自己的第一套具身科研平台?
具身智能之心· 2025-10-09 04:00
产品定位与目标客群 - 产品是专为具身智能科研领域打造的轻量级高性价比机械臂Imeta-Y1 [1][2] - 目标客群为学生、教育工作者及机器人领域初学者,旨在帮助其低成本、高效率地完成算法验证与项目开发 [2] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖数据采集、模型训练到推理部署,支持视觉、力控等多模态数据融合,并兼容TensorFlow、PyTorch等主流框架 [3][17][32] - 支持Python/C++双语言接口,并兼容ROS1/ROS2,提供URDF模型,可实现仿真环境(如Gazebo)与真机的无缝联调与一键部署 [3][17][22] - 采用高精度运动控制与开放软硬件架构,具备紧凑型结构与模块化接口,适用于嵌入式AI与机器人学习平台 [5][6] 关键性能参数 - 机械臂本体重量为4.2公斤,额定负载为3公斤,具备6个自由度,工作半径为612.5毫米,重复定位精度达±0.1毫米 [8][19] - 供电电压为24V,控制器为PC,通讯方式采用CAN,控制方式支持轨迹跟踪、示教及API [8][19] - 各关节运动范围最大为180度,关节运动最大速度达220度/秒 [8][19] 售后与支持服务 - 提供24小时快速售后响应,非人为损坏产品质保半年 [3][44][45] - 交付周期为1-2周,后期将为新老客户陆续升级VLA、VA相关源码 [19][44]
中科院自动化!EmbodiedCoder:生成模型的参数化具身移动操作
具身智能之心· 2025-10-09 00:04
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zefu Lin等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 一、研究背景 在机器人领域,让机器人在复杂、非结构化环境中像人类一样熟练完成多样化任务,是长期核心目标。近年来,视觉-语言-动作(VLA)模型通过端到端映射感官 输入与自然语言指令到机器人动作,推动了这一目标的落地,但仍存在显著局限: 为解决这些问题,研究人员提出分层策略,利用视觉-语言模型(VLM)将任务分解为子任务,并调用预定义操纵原语(如导航、抓取)。但这类方法受限于原语 库,无法处理开门、拉抽屉等需要精细交互的真实场景任务——这类任务难以被有限的预定义原语覆盖。 此前基于代码生成的尝试也存在不足:早期方法仅适用于简单几何任务;部分方法依赖学习模型处理物理约束,降低对新场景的适应性;还有方法无法处理接触密 集型操纵,或仅聚焦于故障检测而非扩展操纵能力。针对移动机器人,还需解决环境信息留存、非视野内物体规划等更复杂的 ...
从机械臂到人形,跨构型VLA如何破局?
具身智能之心· 2025-10-09 00:04
VLA-Adapter技术突破 - 机械臂视觉语言到动作范式的深刻反思,直击VLA伪规模化问题,核心目标是直接从视觉语言模型特征映射到动作空间,减少对机器人预训练数据的依赖[3] - 研究发现参数增加和机器人数据引入并未提升模型性能,关键在于忽略了视觉语言如何迁移到动作的机制探究[3] - 提出全新映射方案,在0.5B参数级别下性能超越经过大量数据预训练的更大量级骨干模型,显著降低训练成本和入门门槛[3] TrajBooster技术创新 - 首个全身人形操作VLA方案,解决双足人形全身操作任务训练数据稀缺难题,跨本体构型高效利用数据[7] - 以轨迹为中心实现跨本体数据高效利用,仅需10分钟真机遥操数据微调即可实现VLA在双足人形机器人上的全身操作[7] - 是目前业内唯一全开源的涵盖人形数据采集、跨本体数据增强、VLA模型训练及硬件部署全流程的工作[13] 研究团队与项目影响力 - 研究团队OpenHelix Team累计Github star近2k,VLA-Adapter项目两周收获700+star,HuggingFace Trend唯一在榜机器人工作[13] - 团队长期致力于推动具身智能和VLA模型前沿研究,特别是在VLA基座构建,使其更好与物理世界交互[13] - TrajBooster项目基于原OpenWBC项目,是业内唯一全开源的全流程人形机器人VLA解决方案[13]
DiffusionNFT:扩散强化学习新范式,训练效率提升25倍
具身智能之心· 2025-10-09 00:04
编辑丨 机器之心 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 清华大学朱军教授团队, NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 —— Diffusion Negative-aware FineTuning (DiffusionNFT) 。该方法首次突破现有 RL 对扩散模型的基本假设,直接在 前向加噪过程(forward process) 上进行优化,在彻底摆 脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。文章共同一作郑凯文和陈华玉为清华大学计算机系博士生。 论文标题:DiffusionNFT: Online Diffusion Reinforcement with Forward Process 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 论文链接:https://arxiv.org/abs/2509.16117 代码仓库:https://github.com/NVla ...
我们正在找具身领域的合伙人......
具身智能之心· 2025-10-08 02:49
文章核心观点 - 公司面向全球具身智能领域从业者发出合作邀请,旨在通过多方协作推动行业进步 [1] - 合作旨在响应市场对公司在方案、数据采集、技术升级及企业培训等方面赋能的诉求 [1] 合作方向 - 技术方向涵盖VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态大模型、仿真、运动控制、端到端、3D感知等前沿领域 [3] - 合作岗位涉及具身课程开发、方案研发、硬件研发以及面向B端(企业、高校、研究院所)和C端(学生、求职人群)的培训合作 [4] 合作模式与资源 - 公司将提供高额酬金与丰富的行业资源作为合作回报 [2] - 具体合作领域包括技术服务、培训、课程开发与科研辅导等 [1]