具身智能之心
搜索文档
智元机器人亮相IROS 2025 :国际挑战赛圆满收官,全系产品实战演示圈粉
具身智能之心· 2025-10-22 12:00
公司技术实力与产品展示 - 公司在IROS 2025大会上展示了全系列产品矩阵,包括精灵系列、灵犀X2和远征A2,通过实机演示呈现技术落地成果 [2][3][4] - 精灵G1在物流场景实现全程无人工干预的全自动供包操作,并能通过采集作业数据持续训练“见过即会”的场景泛化能力 [4] - 精灵G2首次线下公开亮相,配备两条7自由度机械臂,额定负载达5kg,可实现亚毫米级高精度力控作业,并具备3自由度腰部和2自由度腿部设计以复刻人类动作 [4] - 灵犀X2展示了高自由度运控能力和多模态交互能力,能准确识别语音指令并配合表情与肢体语言实现自然互动 [6] - 远征A2依托虚拟仿真环境中的学习训练数据,无需预先调试即可实现从感知、决策到执行的端到端闭环作业 [6] 行业生态构建与影响力 - 公司与OpenDriveLab联合主办了首届“AgiBot World Challenge @ IROS 2025”国际挑战赛,设置Manipulation和World Model两大赛道,总奖池高达56万美元 [9] - 赛事吸引全球5大洲、23个国家、431支顶尖战队参赛,覆盖高校及研究机构等创新主体,Manipulation赛道决赛有11支队伍晋级线下对决 [9] - World Model赛道聚焦“让AI预见物理世界”,参赛者基于公司开源的数据集和基线模型探索创新,形成多项技术突破 [11] - 公司通过产品演示和主办国际赛事,以“技术+生态”双轮驱动战略推动具身智能技术的规模化应用和产业融合 [12]
宇树最新机器人发布:1米8大高个,能跳舞会功夫,就是颜值一言难尽
具身智能之心· 2025-10-22 06:02
产品发布与定位 - 公司发布第四款人形机器人Unitree H2,定位为仿生人形机器人,旨在为每个人安全友好地服务而生 [2][13] - H2身高180厘米,体重70公斤,比同身高的H1机器人重了23公斤 [2] - 产品外观设计宽肩窄腰,电池和控制板需集成在胸膛内 [3] 产品规格与技术参数 - H2全身拥有31个自由度,相较于H1的19个自由度有显著提升 [14][16][25] - 与公司其他型号相比,H1售价65万元,G1售价9.9万元,R1售价3.99万元,H2价格尚未公布 [14] - 产品形态更接近真人,外观上增加了仿生人脸,是相较于前作的最大变化 [5][6] 功能演示与性能表现 - 官方宣传视频展示了H2的三种能力:跳舞、功夫和走秀 [20] - 在功夫演示中,H2表现出色,重拳出击,其表现力、稳定性和协调性与130厘米高的G1机型几乎无异,显示出公司在机器人鲁棒性和协调性技术方面的提升 [28][32][33][34] - 在走秀演示中,H2穿上衣服后走路姿态协调自然,戴上帽子后从背面看很有仿生人感觉 [34][36][38] 市场反应与用户反馈 - 产品仿生人脸设计引发讨论,被指神似电影《我,机器人》中的NS-5机器人,但部分用户认为其外观诡异,可能引发恐怖谷效应 [8][10][11] - 有用户对H2的舞蹈表现提出意见,认为其动作像喝醉的人乱比划或像没有情感的僵尸在跳舞 [25][26] - 部分用户期待产品功能能向洗衣服做家务等实用方向靠拢 [38]
别造轮子了!原力灵机开源Dexbotic:迈向具身智能的一站式VLA工具箱
具身智能之心· 2025-10-22 06:02
文章核心观点 - Dexmal原力灵机推出了Dexbotic开源工具箱,旨在解决具身智能领域VLA模型开发中存在的框架碎片化、复现困难、资源门槛高等问题,通过提供统一的数据格式、模块化模型架构和高效的实验层设计,推动行业从“碎片化探索”进入“协同创新”新阶段 [1][4][7][29] Dexbotic框架概述 - Dexbotic是一个集成了主流VLA模型的通用易扩展开源工具箱,涵盖操作策略和导航策略,支持云端与本地一体化训练及全链路机器人训练部署 [1][2] - 该框架以“统一VLA架构”为核心,构建了从数据处理到模型开发再到实验落地的全链路解决方案,被类比为具身智能领域的“mmdet时刻” [7] 行业痛点与解决方案 - 当前VLA研究落地受限于碎片化问题,不同团队采用各异框架导致模型对比和复现效率低下,且多数模型无法充分利用最新LLM的强大表征能力 [1][4] - Dexbotic通过统一的模块化VLA框架解决了上述痛点,其设计贴合开发者视角,大幅降低操作门槛 [7][24] 数据层:Dexdata格式 - Dexbotic设计了Dexdata格式来实现多源数据的高效统一,该格式由“视频目录+jsonl目录”组成,大幅节省了模型训练的存储成本 [9][10] - 相较于其他框架的数据格式,Dexdata为多机器人的训练与部署提供了统一数据基础,对个人开发者非常友好 [10] 模型层:DexboticVLM - 模型层以DexboticVLM为核心基础模型,采用“视觉编码器+投影器+LLM”的经典结构,训练流程参考LLaVA [11] - 框架提供两类预训练模型:面向通用VLA策略的离散预训练模型和面向特定策略的连续预训练模型,以满足不同机器人场景需求 [11] 实验层:高效开发支持 - 实验层采用“基础脚本+参数继承”的设计思路,让算法对比、模型迭代效率提升50%以上,完全贴合开发者的实际操作习惯 [11] - 该层支持云端与本地消费级GPU的训练与推理,兼顾高校、企业等不同用户的算力需求 [11][25] 性能表现与基准测试 - 在SimplerEnv benchmark中,DB-CogACT较官方CogACT平均成功率提升18.2%,DB-OFT较官方OpenVLA-OFT提升46.2% [21][22] - 在长任务场景CALVIN benchmark中,DB-CogACT的平均任务完成长度达4.06,较官方版本提升0.81 [21][22] - 即使是已达SOTA的MemoryVLA,在Dexbotic预训练模型加持下也实现了性能提升 [21] 部署与应用支持 - Dexbotic提供全链路机器人训练与部署支持,针对UR5、Franka、ALOHA等主流机器人,已实现多项日常任务的高成功率 [27][29] - 框架采用模块化设计,将所有VLA策略统一拆分为“VLM+动作头”两部分,为算法开发人员自定义策略提供了灵活扩展空间 [15] 开源计划与社区建设 - Dexbotic已开源部分预训练模型和策略,并公布了详细的开源计划表,未来将持续扩展支持的机器人平台 [15][18][27] - 公司同时开源了硬件产品DOS-W1,采用完全开源的硬件设计和快拆结构,以软硬协同方式推进具身领域发展 [30][32]
RLINF-VLA:一种用于 VLA+RL 训练的统一高效框架
具身智能之心· 2025-10-22 06:02
文章核心观点 - 研究团队提出了一个名为RLinf-VLA的统一高效框架,旨在解决视觉-语言-动作模型在强化学习训练中存在的框架零散、效率低下和缺乏统一比较平台的问题 [2] - 该框架通过高度灵活的资源分配设计和统一接口,可无缝支持多种VLA架构、RL算法与模拟器,显著提升了训练效率 [2] - 在仿真实验中,单一统一模型在130个LIBERO任务和25个ManiSkill任务上取得了极高的成功率,分别达到98.11%和97.66% [2][5] - 真实世界部署初步验证表明,经过RL训练的策略比监督微调策略展现出更强的泛化能力 [2][5] 框架设计 GPU分配策略 - 框架针对CPU并行与GPU并行模拟器资源利用模式的差异,支持三种GPU分配模式:共置模式、分离模式和混合模式,用户可通过配置文件轻松切换 [6][8] - 针对GPU并行模拟器,特别提出了“混合分配 + 细粒度流水线”策略,通过将单个GPU上的模拟器拆分为多个子模拟器来减少闲置时间 [8][10] - 混合细粒度流水线分配模式结合了共置和分离模式的优势,训练速度相比基准分离模式提升1.61至1.88倍 [2][35] 模型兼容性 - 框架支持LoRA这一参数高效微调方法,启用后可减少可训练参数、降低内存消耗并加速训练 [12] - 在模型类型上,目前支持OpenVLA(约70亿参数)和其扩展OpenVLA-OFT,后者优化了微调效率、推理速度与部署能力 [12] 多模拟器支持 - 框架选择ManiSkill(擅长基于物理的操作任务)与LIBERO(侧重指令驱动任务)作为主要模拟器,二者功能互补 [13] - 通过统一接口支持不同模拟器的向量化环境,并支持PPO和GRPO等多种强化学习算法 [13] 算法设计 优势函数与对数概率 - 框架支持“动作块”概念,即策略在每个时间步预测一段短期未来动作序列,并为此定义了块级和动作级两种优势函数计算方式 [14] - 支持动作级、块级与令牌级三种对数概率计算粒度,不同选项会带来不同的优化动态 [15] - 优势函数类型兼容所有粒度不细于其自身的对数概率类型,并通过广播机制处理优势值 [17] PPO设计选择 - 在评价网络设计上,为避免增加计算开销,框架让动作网络与评价网络共享大部分参数,仅在VLA模型上附加轻量级价值头 [19] - 实验表明,OpenVLA-OFT模型使用动作级价值估计通常性能更优 [19] - 部分重置模式在“一次成功”优化目标下能提升样本效率,成功率始终高于固定episode长度模式 [19][41] GRPO设计选择 - 框架为GRPO实现了轨迹长度归一化损失,以均衡成功与失败轨迹在优化中的贡献,实验显示该设置能显著提升性能 [20][43] - 成功率过滤机制会丢弃所有轨迹回报相同的组,可提升GRPO训练稳定性,但其有效性具有任务依赖性 [20][46] 实验结果 高性能表现 - 在ManiSkill的25个任务上,无论是OpenVLA还是OpenVLA-OFT模型,强化学习均带来显著性能提升,成功率相比基准提升45%至70% [21][22] - PPO算法在ManiSkill任务中始终优于GRPO,且训练稳定性更高 [22] - 在LIBERO的130个任务上训练单一模型,整体平均成功率从约65.43%提升至98.11%,性能提升约32.68个百分点 [26][28] 高效率表现 - 在GPU并行模拟器评估中,RLinf-VLA的混合模式(pipe=2)在8 GPU配置下吞吐量比基准分离模式提升1.88倍 [35] - 扩展到16与32 GPU时,混合模式通过流水线重叠计算与通信,仍比分离模式提升1.61至1.69倍 [35] - 对于CPU并行模拟器,RLinf-VLA的共置模式相比基准框架SimpleVLA-RL实现1.34至2.27倍的吞吐量提升 [35][37] 消融实验与超参数 - 动作级价值估计相比块级估计能实现更高的成功率与更低的价值损失,学习过程更有效 [39] - 有效动作掩码与轨迹长度归一化结合可带来性能提升,但其效果具有任务依赖性 [44] - 更大的轨迹批次大小有利于性能提升,且不同LoRA配置可能需要单独进行超参数调优 [48][50] 真实世界部署 - 在真实世界Franka机械臂上的部署实验对比了RL训练模型与SFT模型,任务涉及6个未见过物体的拾取放置 [51] - RL训练模型在30次尝试中成功8次,而SFT策略全部失败,显示出RL训练策略更强的零样本泛化能力 [5][51] - 除基础校准外未采用额外仿真-真实迁移技术,初步验证了基于仿真的强化学习在泛化能力上的优势 [51]
告别「偏科」,UniVid实现视频理解与生成一体化
具身智能之心· 2025-10-22 06:02
文章核心观点 - UniVid是一个开源项目,旨在构建一个统一视频模型,将视频理解与视频生成能力融合于单一模型中 [1][5] - 该模型通过创新的统一架构、温控对齐和金字塔反射机制,在视频生成和理解任务上均达到行业领先水平 [6][9][11][15] - 该技术有望在视频创作、内容分析、具身智能等多个行业领域产生应用价值,并因其开源特性而具备显著的生态与科研价值 [31][32][33][34][35] 核心技术创新 - **统一结构**:采用基于适配器(Adapter)的架构,在已有多模态大语言模型中插入轻量模块,使其具备视频生成能力,实现了理解与生成模块的参数共享,显著降低了训练开销和算力成本 [6][8][13] - **温控对齐**:提出模态温度对齐机制(Temperature Modality Alignment),在跨模态注意力层中引入温度系数,动态调节文本与视觉特征的融合强度,早期加强文本语义引导,后期让视觉特征主导细节,有效减少提示偏移(Prompt Drift)[9][10] - **金字塔反射**:针对视频时序数据的长时域依赖建模挑战,提出金字塔反射(Pyramid Reflection)模块,结合Actor-Evaluator-Reflector循环结构,通过动态选择关键帧并在不同时间尺度上反射信息,以最少的帧数实现准确推理 [11][12][14][19] 视频生成性能表现 - 在VBench-Long综合评测中,UniVid取得**85.27**的总分,超越所有对比的主流视频生成模型 [16][17] - 在关键维度上表现突出:时序一致性(Temporal Consistency)达**99.88**,运动平滑度(Motion Smoothness)达**99.25**,语义一致性(Semantic Alignment)达**80.58**,影像质量(Imaging Quality)达**73.03**,均领先于竞争对手 [17][21] - 在语义保真度(Semantic Fidelity)的细分指标上,如多对象(Multi-Obj)得分为**77.45**,也优于其他模型 [17] 视频理解性能表现 - 在视频问答(Video Question Answering)任务中,UniVid在多个主流基准测试中登顶,例如在MSVD-QA数据集上准确率达到**80.1**,在ActivityNet-QA数据集上准确率达到**58.8**,均创造了新纪录 [23][24] - 模型在更复杂的长时序视频上展现出卓越的时序推理与语义理解能力 [23] 行业应用前景 - **视频创作与生成**:可用于影视、广告、短视频等内容创作,通过输入文字脚本或图像提示自动生成符合语义逻辑的连贯视频,提升内容生产效率 [32] - **视频理解与分析**:适用于体育赛事、监控、教学等场景,能够识别动作、人物和事件逻辑,生成精准摘要或进行问答 [33] - **机器人与具身智能**:在机器人导航、自动驾驶等领域,可理解摄像头输入并生成未来场景预测,辅助智能体进行规划与决策 [34] - **开源生态与科研**:模型的代码开源,为研究者和开发者提供了通用底座,有助于降低产业界构建视频生成系统的成本并推动相关科研进展 [35]
Ask-to-Clarify:解决指令的模糊性,端到端为真实具身任务生成动作
具身智能之心· 2025-10-22 03:04
文章核心观点 - 提出名为Ask-to-Clarify的创新框架,旨在解决具身智能体在真实世界中因指令模糊性而无法有效执行任务的关键问题 [4] - 该框架通过多轮对话主动澄清模糊指令,并以端到端方式生成动作,推动智能体从被动执行者向主动协作者转变 [2][4] - 框架结合了视觉语言模型的交互能力和扩散模型的行动生成能力,并通过独特的训练策略和连接模块实现高效协同 [6][10] 任务与框架设计 - 定义了一项新任务,要求智能体在执行指令前必须通过提问解决指令模糊性,更贴近现实交互需求 [12] - 框架核心包含一个用于人机协作的视觉语言模型和一个用于动作生成的扩散模型 [6][10] - 设计了一个连接模块,用于将VLM的输出转化为扩散模型稳定可靠的条件输入,平滑衔接两个组件 [6][10] 训练策略设计 - 采用两阶段“知识隔离”训练策略,第一阶段在交互对话数据上微调VLM,赋予其解决指令模糊性的能力 [15][17] - 第二阶段冻结协作组件参数,联合训练动作生成组件,防止对话能力在动作训练过程中被遗忘 [15][19] - 训练中引入特殊信号标记(如`<AMBG>`, `<NOT_AMBG>`)来指导模型在提问与执行间切换 [17][22] 实验验证与性能 - 在8个真实世界任务中评估框架,任务涵盖物体放置、液体倾倒和积木堆叠三大类 [27][34] - 与基线模型比较显示显著优势:在“将水果放盘子上”任务平均成功率达95%,“倒水”任务达98.3%,“堆叠积木”任务达90%,远超基线模型的57.5%或0% [30][35] - 消融实验证明两阶段训练策略和连接模块对框架成功至关重要 [25][36] - 在低光照(光照减少50%)和存在相似干扰物等非理想条件下,框架表现出良好鲁棒性,性能下降幅度远小于基线模型 [37][38][39][40] 技术实现细节 - 推理阶段通过信号检测器实现VLM交互能力与扩散模型行动能力间的无缝衔接,根据输出标记自动路由流程 [22][23] - 实验使用xArm 7机械臂和RealSense D435摄像头在真实环境中进行 [26] - 第一阶段训练数据由Qwen3-235B-A22B生成,第二阶段使用了手动采集的专家演示数据 [28]
具身智能之心机器人运动控制群成立啦~
具身智能之心· 2025-10-22 03:04
行业动态 - 一个专注于机器人运动控制的技术社群“具身智能之心机器人运动控制群”正式成立[1] - 该社群明确关注人形机器人和四足机器人等相关研究方向[1] - 社群欢迎相关领域的研究人员加入[1] 技术焦点 - 社群的核心技术关注点包括视觉语言动作模型、强化学习、全身控制以及模型预测控制等前沿领域[1]
从几个代表性的工作分析强化学习和VLA是怎么结合的?挑战有哪些?
具身智能之心· 2025-10-22 03:04
文章核心观点 - 强化学习与视觉-语言-动作模型的结合是提升机器人智能水平的关键技术路径 [2] - 该技术融合能显著提升机器人在复杂、未知环境中的任务成功率、安全性和操作效率 [4][7][10] - 多种创新框架通过不同方式实现RL与VLA的结合,解决了泛化、奖励设计、数据效率等核心挑战 [6][8][12][18][22][27] 技术结合方式与框架 - **VLA模型为强化学习提供方向指导**:VLA模型将视觉和语言信息转化为任务目标,强化学习则根据目标在环境中尝试并优化动作细节 [2][3] - **GRAPE框架通过偏好对齐增强泛化能力**:在轨迹层面对齐VLA,从成功和失败试验中隐式建模奖励,将复杂任务分解为独立阶段 [6] - **VLA-RL框架通过在线优化提升性能**:将操作过程建模为多轮对话,用强化学习在线优化预训练VLA模型,在40项任务中性能接近商用顶级模型 [8][9][10] - **ReWiND框架通过语言指令学习奖励函数**:从少量演示数据学习语言调节的奖励函数,仅通过语言指令就能适应新任务,真实世界性能提升5倍 [12][14] - **ConRFT框架通过一致性策略实现稳健微调**:结合离线与在线微调,在8项真实任务中平均成功率96.3%,比监督学习提升144% [15][18][26] - **Dual-Actor框架通过双智能体协作提升效率**:主智能体保障稳健性能,优化智能体进行潜空间适配,101分钟在线微调实现100%成功率 [20][22] - **VRAG-RL框架优化视觉信息检索推理**:通过视觉感知动作逐步聚焦关键信息,用强化学习优化检索和推理路径 [27][28] 性能提升数据 - GRAPE框架在域内和未见任务上成功率分别提高51.79%和58.20%,碰撞率降低37.44%,轨迹步长缩短11.15% [7] - VLA-RL使OpenVLA-7B模型性能比最强微调基准高出4.5% [10] - ReWiND在仿真中学习效率比基准方法高2倍,真实世界预训练策略提升5倍 [12][14] - ConRFT任务周期缩短1.9倍,在线微调时间仅需45-90分钟 [18][26] - Dual-Actor框架在多机器人训练时效率可提升高达2倍 [22] 技术挑战与解决方案 - **数据效率低**:使用预训练VLA模型作为起点,减少从头学习时间,Dual-Actor框架仅需在线微调即可完成高难度任务 [20][22] - **安全性风险**:引入安全机制和人类干预,ConRFT允许人类通过远程操作实时纠正机器人动作 [23][24][26] - **多模态融合困难**:设计高效多模态编码器,VRAG-RL通过视觉感知动作逐步聚焦关键信息 [27][28]
IROS 2025 AIR4S 研讨会:AI + 机器人,正在重塑未来科学
具身智能之心· 2025-10-21 07:20
研讨会概述 - 研讨会主题为"Embodied AI and Robotics for Future Scientific Discovery",聚焦具身智能与机器人在科学研究中的融合与未来方向[3] - 探讨AI与机器人如何参与科研全过程,包括文献检索、假设生成、实验执行、数据分析及论文撰写等环节[5] - 会议时间为2025年10月24日09:00–13:00(GMT+8),地点为中国杭州国际博览中心Pressroom A[6][20] 参与专家与机构 - 邀请来自学术界与工业界的多位专家,包括宇树科技CEO Xingxing Wang、MIT的Markus J Buehler和Pulkit Agrawal、斯坦福大学James Zou、东京大学Kanako Harada等[7] - 研讨会由多国高校与研究机构联合组织,包括多伦多大学、牛津大学、哈佛大学、清华大学、浙江大学等[9] - 获得NOKOV度量科技、Frontiers in Robotics and AI等机构支持[15] 研讨会内容与创新 - 共接收17篇论文,涵盖AI for Science、机器人技术、科研自动化等前沿主题[13] - 首次在IROS研讨会中引入AI Review机制,由人工智能模型辅助生成审稿意见,探索AI在科研评审中的创新应用[13][14] 社区与资源 - 具身智能之心知识星球被描述为国内首个具身智能开发者社区,包含近200家公司机构、40多个开源项目和60多个具身智能相关数据集[24][25][26] - 提供具身智能方向论文辅导服务,覆盖顶会、顶刊、SCI等多类学术需求[23][24] - 建立近60个技术交流群,涵盖大模型、机器人仿真、规划控制等多个研究方向[28]
相约杭州!具身智能之心首次赞助IROS并现场颁奖
具身智能之心· 2025-10-21 01:30
赛事概述 - 行业面临机器人感知系统在真实复杂环境中稳定性、鲁棒性与泛化能力的挑战[1] - RoboSense Challenge 2025旨在系统性评估机器人在真实场景下的感知与理解能力,推动多模态感知模型的稳健性研究[1] - 赛事由新加坡国立大学、南洋理工大学、香港科技大学、密歇根大学机器人研究院等多家研究机构联合主办,并作为IROS 2025官方认证竞赛项目[4][5] 赛道二:社交智能导航 - 赛道核心目标是打造具备“社交智能”的自主导航机器人,使其能安全、高效、符合社会规范地在动态室内环境中穿行[8][9] - 任务要求机器人基于RGB-D视觉与里程计,在无地图、无特权信息的前提下完成导航,且不影响人类行为[10] - 挑战难点包括动态行为建模、社交规则编码、不确定性处理以及多维度的评测体系[12] - 评测维度除成功率与路径效率外,还包括路径社会性指标PSC与碰撞统计H-Coll[12] 技术方向与活动 - 推荐的技术方向包括使用Transformer-based社交轨迹预测模块、引入行为分类器进行风险判断、以及多主体地图编码与图神经网络[15] - 赛事重要日期包括第一阶段截止日期2025年8月15日,第二阶段截止日期2025年9月15日,获奖决定将于2025年10月19日在IROS 2025公布[3] - 赛事赞助方将在IROS 2025现场为优胜者颁奖,并于10月21日上午进行现场直播[13] - 联合举办方将为参会者提供与学术、创业、投资领域专家交流的after party活动,报名截止时间为10月20日24:00[16][18][19]