Workflow
具身智能之心
icon
搜索文档
3DGS杀入具身!港大×原力无限RoboTidy即将开源:让机器人在家庭场景“游刃有余”
具身智能之心· 2025-11-27 00:04
文章核心观点 - 由香港大学与原力无限等联合团队发布的RoboTidy基准,通过引入3D Gaussian Splatting技术构建了500个照片级逼真的交互式3D家庭环境,并提供了超过8000条专家演示轨迹,显著提升了机器人在长序列家庭整理任务中的表现,并将真实机器人的任务成功率提升了近30%,标志着具身智能研究在仿真环境真实性与产业落地方面取得了重要突破 [3][4][5][17][23] 技术突破:3DGS构建高保真仿真环境 - 传统仿真器基于3D网格建模,画质失真、缺乏真实光影纹理,导致训练出的算法在真实复杂环境中“水土不服” [7] - RoboTidy引入3D Gaussian Splatting技术,能以超过100 FPS的渲染速度重建照片级真实场景 [8] - 团队扫描了500个真实家庭场景并通过3DGS“克隆”进仿真器,使机器人能感知真实的光照变化、材质质感和反光等细节 [10] - 这种“所见即所得”的视觉保真度为训练高鲁棒性的视觉编码器提供了基础 [11] 任务与数据集:定义家庭整理的长序列规划挑战 - 家庭整理对机器人是顶级的长序列规划挑战,需要结合视觉识别、语义理解和常识推理能力 [13] - RoboTidy提供了包含8000多条专家示范轨迹的高质量数据集,记录了从物体识别、抓取到放置的完整链条,蕴含了人类整理房间的隐性逻辑 [14] - 基于此数据集,团队提出了包含“语义规划器”和“底层策略”的分层控制框架,使机器人能模仿人类“看到杂乱-规划归属地-执行整理”的思考过程 [14] - 基准覆盖了500个具有高多样性的家庭布局场景资产 [14] 产业落地:Sim-to-Real的工程化验证 - 原力无限团队重点攻克了“虚实迁移鸿沟”这一行业痛点 [16] - 在真实机器人测试中,经过RoboTidy高保真环境预训练并结合原力无限自研控制算法的策略,展现出极强的鲁棒性,特别是在处理未见过的物体和复杂背景时表现优于基线方法 [16] - 实验数据显示,该方案使真实机器人的长序列任务成功率相比传统方法提升了29.4% [4][16] - 这证明了高质量的仿真数据可以直接转化为真实世界的生产力 [17] 行业影响:建立标准化基准并开源 - RoboTidy建立了业内首个基于3DGS技术的家庭整理基准,填补了该领域缺乏统一评测标准的空白 [4][19] - 通过开源这套高质量的基准、标准化评测系统和Leaderboard,为全球开发者提供了更真实、严苛、标准的研发起跑线 [19][21] - 基准提供了统一的API接口,方便开发者接入自己的算法 [26] - 评测采用多维度Metric,不仅评估物体是否归位,还评估放置的合理性、美观度及执行效率 [26]
AAAI 2026 Oral | 华科&小米提出具身智能新范式:教机器人「时间管理」
具身智能之心· 2025-11-27 00:04
文章核心观点 - 研究团队提出了一种名为GRANT的新型3D多模态大模型,通过将运筹学知识引入具身智能领域,使机器人能够进行并行任务规划,从而显著提升任务执行效率[2] - 该方法在ORS3D-60K数据集上的实验结果显示,任务完成效率相比基线方法提升了30.53%,3D定位精度提升了1.38%,综合性能提升了10.46%[19] - 这项工作标志着具身智能研究从单一的“语义理解”向高阶的“运筹决策”跨越,为未来智能管家机器人的实际应用奠定了基础[22] 研究背景与痛点 - 当前具身智能机器人通常只能按顺序串行完成任务,缺乏人类“统筹方法”的能力,导致执行效率低下[3] - 核心问题在于现有机器人缺乏运筹学知识,无法识别哪些任务可以并行执行,哪些必须独占注意力[5] - 例如,面对“微波炉热饭35分钟”和“洗水槽20分钟”的指令,机器人串行执行需55分钟,而人类并行执行只需35分钟[8] 技术方案与创新 - 提出了基于运筹学知识的3D定位任务调度新任务,并构建了包含4,376个场景和60,825个复合任务的大规模数据集ORS3D-60K[6][12] - 数据集中平均指令长度达311个单词,包含复杂的时间约束和空间描述,并经过运筹学求解器验证提供最优调度方案[13] - 设计了GRANT框架,采用“大模型+求解器”协同架构,通过调度令牌机制让LLM负责语义理解,外部求解器负责数学优化[16][19] 数据集特点 - ORS3D-60K数据集规模达60,825个任务,远超同类数据集如TaPA的15,418个任务和LEO的13,848个任务[12] - 数据集创新性地将子任务分为非并行化任务和并行化任务,前者需持续操作,后者仅需启动和检查[15] - 该数据集填补了现有数据集中缺乏运筹学调度与3D空间联合考察的空白[22] 实验结果 - 在时间效率指标上,GRANT相比Grounded 3D LLM等基线方法提升30.53%[19] - 3D定位准确率达到53.49%,显著高于3D-VisTA的13.73%和PQ3D的14.03%[18] - 实际案例显示,模型将总耗时从74分钟压缩至45分钟,效率提升39%[21]
北京人形机器人!WoW:200万条数据训练的全知世界模型
具身智能之心· 2025-11-27 00:04
文章核心观点 - 当前主流视频模型(如Sora)依赖被动观察数据,在理解物理因果关系方面存在不足 [2] - 真正具备物理直觉的世界模型必须基于与真实世界的大规模、富含因果关系的交互数据进行训练 [2] - 北京人形机器人创新中心推出的WoW模型,是一个基于200万条机器人交互轨迹训练、拥有140亿参数的全生成式世界模型,代表了该领域的重要突破 [2] - 通过SOPHIA框架引入视觉语言模型作为评判者,并对生成结果进行物理合理性评估与迭代优化,实现了从“思考”到“行动”的完整闭环 [2] - 在WoWBench基准测试中,WoW模型在物理定律遵循(80.16%)和指令理解(96.53%)方面表现突出,证明了其强大的物理一致性与因果推理能力 [3] 模型架构与技术突破 - 推出WoW模型,这是一个基于200万条真实世界机器人交互轨迹训练而成的、拥有140亿参数的全生成式世界模型 [2] - 模型对物理规律的理解呈现为概率性的可能结果分布,这种特性可能引发随机不稳定和物理幻觉 [2] - 提出SOPHIA框架,通过引入视觉语言模型作为评判者,对生成结果进行物理合理性评估,并借助语言指令进行迭代优化 [2] - 框架中协同训练一个逆向动力学模型,负责将优化后的视觉想象转化为可执行的机器人动作,形成完整闭环 [2] - 模型架构体现了“想象、行动、反思”的智能体设计思想 [7] 性能评估与基准测试 - 为系统评估模型的物理一致性与因果推理能力,构建了WoWBench基准测试 [3] - 在该基准上,WoW模型在人工评估与自动评估中均达到领先水平 [3] - 模型在物理定律遵循方面得分达到80.16% [3] - 模型在指令理解方面得分达到96.53% [3] - 测试结果证明了模型在物理因果关系、碰撞动力学和物体持久性等方面的强大能力 [3] 行业趋势与应用前景 - 研究以扎实证据表明,大规模真实世界交互是培养AI物理直觉不可或缺的基石 [3] - 世界模型在具身智能领域存在垂直应用前景 [7] - 模型具备预测未来、推演物理、还原因果的能力 [7] - 行业关注可落地的实践应用场景 [7] - 分享内容涵盖了国内外世界模型的发展趋势 [7]
SLAM与视觉语言/目标导航有什么区别?
具身智能之心· 2025-11-27 00:04
行业技术定义与核心 - 具身导航是具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱 [2] - 目标驱动导航是具身导航中最具代表性的方向,要求智能体在陌生三维环境中,仅凭目标描述即可自主完成环境探索与路径规划 [2] - 该技术实现了从依赖显式指令的“听懂指令走对路”到自主决策的“看懂世界自己找路”的跃迁,背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破 [2] 产业化落地与应用场景 - 在终端配送场景,美团无人配送车通过动态路径重规划在复杂城市环境中执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署 [4] - 在医疗、酒店及餐饮场景,嘉楠科技、云迹科技、擎朗智能的商用服务机器人以及美国Aethon公司的TUG系列,已实现药品、文件和餐食的自主配送 [4] - 随着人形机器人发展,导航技术适配性升级成为新焦点,宇树科技Unitree系列通过Habitat预训练完成基础导航任务,智元机器人在工业场景集成该模块,特斯拉Optimus展示了“取放电池”等端到端操作能力 [4] 技术生态与评测体系 - 基于Habitat仿真的具身导航生态完整记录了领域技术迭代轨迹,自2020年CVPR提出点导航基准以来,评测体系逐步扩展至图像导航、目标导航及移动抓取任务 [5] - 技术进展呈现明显梯度:点导航和闭集物体导航接近人类表现,但开放词汇物体导航和动态障碍物场景仍面临重大挑战 [5] - Meta AI提出的Sim2Real迁移框架为仿真训练到真实部署提供了方法论参考,CMU与Stanford等机构持续推动动态环境下的语义地图更新技术 [5] 三代技术路线迭代 - **第一代端到端方法**:基于强化学习与模仿学习框架,在点导航与闭集图片导航任务中取得突破,部分方法的SPL指标已逼近人类表现 [6] - **第二代模块化方法**:通过显式构建语义地图将任务分解,在零样本目标导航任务中展现显著优势,在未见物体场景下成功率提升明显 [8] - **第三代LLM/VLM融合方法**:引入大语言模型的知识推理能力生成语义指导的探索策略,并通过视觉语言模型提升开放词汇目标匹配精度,当前研究重点在于设计场景表征接口 [10] 相关课程内容与结构 - 课程旨在解决目标驱动导航领域技术栈多、入门困难、知识碎片化、缺乏实战指导等挑战 [11] - 课程特点包括:基于Just-in-Time Learning理念快速入门、帮助学员构建领域框架与研究能力、理论结合实践完成闭环 [11][12][13] - 课程大纲共六章,系统覆盖语义导航核心框架、Habitat仿真生态、端到端导航方法论、模块化导航架构、LLM/VLM驱动的导航系统以及大作业 [15][17][18][19][20][21][22] - 大作业聚焦VLFM算法复现与真实场景部署,实践流程包括占据地图构建、边缘探索点生成与排序、值地图生成、导航策略构建及算法改进与实机部署探索 [23][27] - 课程为期3个月,采用离线视频教学配合VIP群答疑,进度安排覆盖从概述、仿真环境到三代核心方法的理论与实战,最终完成大作业 [28][29]
AAAI'26 Oral | 华科&小米提出新范式:教机器人「时间管理」,任务效率提升30%以上!
具身智能之心· 2025-11-26 10:00
文章核心观点 - 研究团队提出了一种名为GRANT的新型3D多模态大模型,通过将运筹学知识引入具身智能任务规划,使机器人能够像人类一样进行并行任务调度,从而显著提升任务执行效率[2] - 该方法的核心创新在于“大模型+求解器”的协同架构,让大语言模型负责语义理解和场景感知,而外部优化求解器负责复杂的数学规划,实现了任务完成效率30.53%的提升[2][16] - 此项工作标志着具身智能研究从单一的“语义理解”向高阶的“运筹决策”跨越,为开发真正具备“时间管理”能力的智能管家奠定了基础[22] 研究背景与痛点 - 现有具身智能机器人通常只能按顺序串行完成任务,缺乏人类“统筹方法”的能力,导致执行效率低下[3][5] - 根本原因在于现有机器人缺乏运筹学知识,无法识别哪些任务可并行处理,哪些任务必须独占注意力,同时还需在复杂3D场景中精准定位物体[6] 数据集创新 - 研究团队构建了首个融合运筹学知识的大规模3D具身数据集ORS3D-60K,包含4,376个真实室内场景和60,825个复合任务[10][12] - 该数据集平均指令长度高达311个单词,远超其他数据集,并且每条任务都经过运筹学求解器验证,提供了数学上的最优调度方案作为标注[12] - 数据集根据运筹学原理将子任务细分为非并行化子任务和并行化子任务,迫使模型进行全局最优规划而非局部决策[12][15] 技术方法与架构 - GRANT模型包含四个核心组件:3D场景编码器、大语言模型、调度令牌机制和3D定位头[16][19] - 调度令牌机制是关键创新,LLM不直接计算时间,而是预测子任务属性,然后通过特殊令牌调用外部优化求解器进行动态规划计算最优时间表[16][19] - 这种架构实现了“懂人话、认东西”与“算时间、排工序”的专业分工,结合了多模态理解与数学优化优势[19] 性能表现与实验结果 - 在ORS3D-60K数据集上,GRANT在综合性能指标上达到53.49,相比基线方法提升10.46个百分点[18] - 任务执行效率相比基线方法提升30.53%,同时3D定位精度不仅没有牺牲反而提升1.38%[19] - 实际案例显示,模型能将总耗时从74分钟压缩至45分钟,效率提升39%,并在每一步都实现高精度3D物体定位[21]
具身方向,论文“救援”来了!
具身智能之心· 2025-11-26 10:00
公司业务与服务定位 - 公司提供一站式论文辅导服务 专注于具身智能及相关前沿技术领域 旨在解决从选题到投稿的全流程学术难题 [1] - 服务覆盖从顶级会议CCF-A到CCF-C 以及SCI一区到四区、EI、中文核心、毕业论文和申博等多种学术产出需求 [1] - 公司提供1对1定制化辅导 核心方向包括多模态大模型、视觉语言动作、视觉语言导航、机器人抓取与导航、3D高斯泼溅、端到端具身智能体及具身合成数据生成等 [1] 核心团队与专业能力 - 导师团队来自CMU、Stanford、MIT等国内外名校的PhD及大厂研究员 具备顶级会议如ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR的审稿经验 [1] - 团队具备工业界与学术界双重视角 不仅关注论文发表 也关注技术的落地价值 例如机器人抓取的鲁棒性和导航的实时性优化 [3] 服务流程与价值主张 - 提供全流程闭环辅导 涵盖从选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略等关键环节 [2] - 公司为前10名咨询者提供免费匹配专属导师的服务 可进行深度会议并获得一对一的会议或期刊选投建议 [4]
具身智能之心技术交流群成立了!
具身智能之心· 2025-11-26 10:00
社群成立与目标 - 具身智能之心技术交流群正式成立,旨在促进相关技术领域的交流与合作 [1] - 社群主要关注方向包括视觉语言导航、遥操作、扩散策略、强化学习、多模态大模型等前沿技术领域 [1] 社群加入方式 - 感兴趣者可通过添加指定助理微信账号申请加入社群 [2] - 申请入群需按要求备注个人机构、姓名及研究方向信息以加速审核流程 [3]
2.64亿元订单!刷新全球人形机器人记录
具身智能之心· 2025-11-26 04:00
公司业务进展 - 优必选中标广西防城港市人形机器人数据采集与测试中心和人工智能科创教育示范项目,金额2.64亿元,产品以最新款人形机器人Walker S2为主 [2] - 项目涉及边境口岸的旅客和人员疏导、岗哨巡检、物流、商业服务以及国内钢铜铝大型生产制造基地的设施巡检等,预计12月交付 [2] - Walker S2机器人本月已陆续交付,主要应用于制造业和物流行业 [5] 产品市场表现 - Walker S2机器人今年订单总金额已达11亿元,为全球最大的单品人形机器人销售金额 [4] - 该订单表现给全球人形机器人市场带来了信心 [5]
机加篮球有没有搞头?港科大解锁全球首个真实篮球机器人Demo!
具身智能之心· 2025-11-26 00:05
技术突破与核心观点 - 香港科技大学研究团队展示了全球首个能在真实场景中完成篮球动作的机器人demo,标志着具身智能在复杂物理交互任务上的重大进展[5][50] - 该技术突破基于团队此前在仿真环境中的系列研究,包括PhysHOI、SkillMimic和最新的SkillMimic-V2,实现了从虚拟仿真到现实应用的快速跨越[7][36][50] - 核心技术创新在于解决了从稀疏、含噪且覆盖不足的演示数据中学习鲁棒且可泛化交互策略的难题[11] SkillMimic-V2技术细节 - SkillMimic-V2通过引入拼接轨迹图(STG)、状态转移场(STF)和自适应轨迹采样(ATS)三大关键技术,有效应对演示数据的稀疏性、不连贯性和噪声问题[11][14][22] - 在困难技能(如上篮Layup)上的成功率从0%显著提升至91.5%,技能转换成功率(TSR)从2.1%飙升至94.9%,性能提升显著[26][27] - 该方法能够实现运球到投篮等复杂技能间的自然转换,并具备从干扰状态中恢复的能力,展现出强大的鲁棒性和泛化性[21][24] SkillMimic技术框架 - SkillMimic框架采用统一HOI模仿奖励与分层技能复用架构,在单一奖励配置下成功训练出掌握多样化篮球技能的交互策略[30][32] - 基于构建的BallPlay-V和BallPlay-M数据集(约35分钟篮球交互数据),该方法在运球、上篮等任务上的成功率(如79.6%和99.1%)显著高于DeepMimic和AMP等传统方法[33][34] - 分层架构包含低层的交互技能策略和高层的高级控制器,能够有效组合基础技能以完成长程复杂任务[32] 技术演进与基础研究 - PhysHOI作为早期工作,提出了基于物理仿真的动态人-物交互模仿学习框架,并引入接触图(Contact Graph)概念以优化运动学模仿奖励[36][38][43] - 系列研究的核心研究人员王荫槐(香港科技大学博士)在PhysHOI、SkillMimic和SkillMimic-V2中均担任关键角色,体现了技术发展的延续性和深度[46][49] - 技术发展速度迅猛,从2023年的仿真环境研究快速推进至真实环境中的机器人演示,显示出该领域强大的创新活力[50]
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒
具身智能之心· 2025-11-26 00:05
文章核心观点 - Generalist AI公司发布了其Gen-0具身基础模型,该模型基于公司自建的、当前具身领域规模最大的真实世界操作数据集(27万小时)进行预训练,在数据规模上实现了难以撼动的领先 [3] - 该模型在6段公开视频中展示了其在处理复杂、多样化、贴近现实的长程操作任务时的高泛化能力和精细操作水平 [5][8][11] - 公司的核心团队由来自Google DeepMind、波士顿动力、OpenAI、Waymo等顶尖机构的资深研究人员组成,其愿景是“部署通用机器人”,将体力劳动的边际成本降至为零 [4] 数据规模与基建 - Gen-0模型基于27万小时的真实世界操作轨迹进行预训练,该数据集是当前具身领域规模最大的,仅在衣物处理的轨迹数就达到了3亿条 [3] - 该数据集的原始数据量级达数十PB(1 PB相当于10万条10GB的高清视频),且数据采集速度能实现每周上传1万小时,并持续提升 [7] - 数据量的指数级增长对算力投入和数据质量把控提出了极高要求,新进入者若想复刻此数据规模,仅数据采集“爬坡”就需至少半年到一年时间,不包括搭建数据基建的过程 [7] 模型能力与任务表现 - 模型展示了处理复杂、多轴铰链任务(如折叠外卖盒子)的高泛化能力,该任务需处理多个相互关联的运动自由度,构成一个多轴联动系统 [8] - 视频中操作的对象均为现实生活中常见、非特制的真实物品,涵盖各类纸盒、带胶带封装的包装物、不同形态的玩具、线缆、柔性材质物品等,任务环境高度贴近真实世界 [11] - 模型展现了处理刚性、柔性、可变形结构等不同物性物体的能力,其面对多样化、高自由度、多物理属性物体时的适应性与泛化能力令人印象深刻 [8][9] 硬件设计与创新 - 采用了双臂加夹爪的工业设计思路,其使用的协作机械臂在稳定性、臂长上接近人类,从替换人的角度考虑是合理的设计 [12] - 夹爪进行了精细化设计,不再是常见的二指平行夹爪,而是具有更大量程(类似剪刀结构)和尖锐末端的创新设计,使其能完成如同时接触物体前后两个面、分拣精细条状物体等灵巧操作 [15][18] - 机械臂具备力控功能,在视频中表现出丝滑的操作效果,硬件设计上的创新突破值得行业关注和学习 [15][20] 团队背景与行业启示 - 公司由Google DeepMind高级研究科学家Pete Florence联合创立,CTO Andrew Barry来自波士顿动力,首席科学家Andy Zeng也来自Google DeepMind,核心团队还包括来自OpenAI、Waymo等公司的资深研究人员 [4] - 公司的愿景是创造出无所不能的机器人,将体力劳动的边际成本降为零 [4] - 此次发布启示行业,海外领先公司在硬件创新结构设计上同样具有显著优势,值得国内从业者学习 [20]