Workflow
具身智能之心
icon
搜索文档
今年大家最关注的具身方向要出炉了.......
具身智能之心· 2025-11-27 04:00
研报筹备与调研重点 - 公司正在为具身行业起草一份非常丰富的研报 预计明年第一季度公布 [1] - 研报内容涉及多个模块 包括具身公司的融资、产业、政策、算法、落地、出口等 [1] - 公司希望通过调研了解行业关注内容 以确定研报侧重点 [1] 具身行业研报覆盖领域 - 国内具身产业与政策 [4] - 国外具身产业情况 [4] - 具身公司融资、业务情况 [4] - 具身数采相关 [4] - 具身算法优化部署相关 [4] - 机器人边缘芯片相关 [4] - 具身下游产业发展 [4] - 具身产业人才结构与需求 [4] - 具身公司上市辅导等 [4]
VLA+RL方案:具身的“关键突破”,如何更好地部署落地?
具身智能之心· 2025-11-27 04:00
直播活动概览 - 活动主题为VLA与RL的真机部署及如何更好落地 [5] - 直播时间为12月6日19:30 [17] - 活动形式为线上直播,可通过扫描二维码免费观看 [17] 核心讨论议题 - 探讨VLA的架构和模型现存痛点 [8] - 分析让机器人"舞得更好"的全身运控方案进化空间 [8] - 讨论VLA+RL如何更好上真机、如何挑选"板子"及轻量化实现方案 [8] 分享嘉宾阵容 - 隋伟担任地瓜机器人算法副总裁 [9] - 张强为北京人形机器人首席研究员、学术委员会主任 [11] - 汪天才担任原力灵机合伙人 [11] - 于超为清华大学博士,即将加入清华深研院任助理教授 [13] - 主持人包括Gloria(具身智能之心联创)和刘斯坦(知乎大V、全网13万关注者、《PyTorch自动驾驶视觉感知算法实战》作者、深度流光CTO) [15] 深度内容获取渠道 - 完整版深度内容已独家上线知识星球「具身智能之心」 [20] - 知识星球内容涵盖所有技术细节、QA及未公开彩蛋 [20] - 深度解析主题包括灵巧手的设计与难题、Agent在思想学术与工程领域的真义、Spec-VLA推测解码框架、CMU跨实体世界模型等 [20]
3DGS杀入具身!港大×原力无限RoboTidy即将开源:让机器人在家庭场景“游刃有余”
具身智能之心· 2025-11-27 00:04
文章核心观点 - 由香港大学与原力无限等联合团队发布的RoboTidy基准,通过引入3D Gaussian Splatting技术构建了500个照片级逼真的交互式3D家庭环境,并提供了超过8000条专家演示轨迹,显著提升了机器人在长序列家庭整理任务中的表现,并将真实机器人的任务成功率提升了近30%,标志着具身智能研究在仿真环境真实性与产业落地方面取得了重要突破 [3][4][5][17][23] 技术突破:3DGS构建高保真仿真环境 - 传统仿真器基于3D网格建模,画质失真、缺乏真实光影纹理,导致训练出的算法在真实复杂环境中“水土不服” [7] - RoboTidy引入3D Gaussian Splatting技术,能以超过100 FPS的渲染速度重建照片级真实场景 [8] - 团队扫描了500个真实家庭场景并通过3DGS“克隆”进仿真器,使机器人能感知真实的光照变化、材质质感和反光等细节 [10] - 这种“所见即所得”的视觉保真度为训练高鲁棒性的视觉编码器提供了基础 [11] 任务与数据集:定义家庭整理的长序列规划挑战 - 家庭整理对机器人是顶级的长序列规划挑战,需要结合视觉识别、语义理解和常识推理能力 [13] - RoboTidy提供了包含8000多条专家示范轨迹的高质量数据集,记录了从物体识别、抓取到放置的完整链条,蕴含了人类整理房间的隐性逻辑 [14] - 基于此数据集,团队提出了包含“语义规划器”和“底层策略”的分层控制框架,使机器人能模仿人类“看到杂乱-规划归属地-执行整理”的思考过程 [14] - 基准覆盖了500个具有高多样性的家庭布局场景资产 [14] 产业落地:Sim-to-Real的工程化验证 - 原力无限团队重点攻克了“虚实迁移鸿沟”这一行业痛点 [16] - 在真实机器人测试中,经过RoboTidy高保真环境预训练并结合原力无限自研控制算法的策略,展现出极强的鲁棒性,特别是在处理未见过的物体和复杂背景时表现优于基线方法 [16] - 实验数据显示,该方案使真实机器人的长序列任务成功率相比传统方法提升了29.4% [4][16] - 这证明了高质量的仿真数据可以直接转化为真实世界的生产力 [17] 行业影响:建立标准化基准并开源 - RoboTidy建立了业内首个基于3DGS技术的家庭整理基准,填补了该领域缺乏统一评测标准的空白 [4][19] - 通过开源这套高质量的基准、标准化评测系统和Leaderboard,为全球开发者提供了更真实、严苛、标准的研发起跑线 [19][21] - 基准提供了统一的API接口,方便开发者接入自己的算法 [26] - 评测采用多维度Metric,不仅评估物体是否归位,还评估放置的合理性、美观度及执行效率 [26]
AAAI 2026 Oral | 华科&小米提出具身智能新范式:教机器人「时间管理」
具身智能之心· 2025-11-27 00:04
文章核心观点 - 研究团队提出了一种名为GRANT的新型3D多模态大模型,通过将运筹学知识引入具身智能领域,使机器人能够进行并行任务规划,从而显著提升任务执行效率[2] - 该方法在ORS3D-60K数据集上的实验结果显示,任务完成效率相比基线方法提升了30.53%,3D定位精度提升了1.38%,综合性能提升了10.46%[19] - 这项工作标志着具身智能研究从单一的“语义理解”向高阶的“运筹决策”跨越,为未来智能管家机器人的实际应用奠定了基础[22] 研究背景与痛点 - 当前具身智能机器人通常只能按顺序串行完成任务,缺乏人类“统筹方法”的能力,导致执行效率低下[3] - 核心问题在于现有机器人缺乏运筹学知识,无法识别哪些任务可以并行执行,哪些必须独占注意力[5] - 例如,面对“微波炉热饭35分钟”和“洗水槽20分钟”的指令,机器人串行执行需55分钟,而人类并行执行只需35分钟[8] 技术方案与创新 - 提出了基于运筹学知识的3D定位任务调度新任务,并构建了包含4,376个场景和60,825个复合任务的大规模数据集ORS3D-60K[6][12] - 数据集中平均指令长度达311个单词,包含复杂的时间约束和空间描述,并经过运筹学求解器验证提供最优调度方案[13] - 设计了GRANT框架,采用“大模型+求解器”协同架构,通过调度令牌机制让LLM负责语义理解,外部求解器负责数学优化[16][19] 数据集特点 - ORS3D-60K数据集规模达60,825个任务,远超同类数据集如TaPA的15,418个任务和LEO的13,848个任务[12] - 数据集创新性地将子任务分为非并行化任务和并行化任务,前者需持续操作,后者仅需启动和检查[15] - 该数据集填补了现有数据集中缺乏运筹学调度与3D空间联合考察的空白[22] 实验结果 - 在时间效率指标上,GRANT相比Grounded 3D LLM等基线方法提升30.53%[19] - 3D定位准确率达到53.49%,显著高于3D-VisTA的13.73%和PQ3D的14.03%[18] - 实际案例显示,模型将总耗时从74分钟压缩至45分钟,效率提升39%[21]
北京人形机器人!WoW:200万条数据训练的全知世界模型
具身智能之心· 2025-11-27 00:04
文章核心观点 - 当前主流视频模型(如Sora)依赖被动观察数据,在理解物理因果关系方面存在不足 [2] - 真正具备物理直觉的世界模型必须基于与真实世界的大规模、富含因果关系的交互数据进行训练 [2] - 北京人形机器人创新中心推出的WoW模型,是一个基于200万条机器人交互轨迹训练、拥有140亿参数的全生成式世界模型,代表了该领域的重要突破 [2] - 通过SOPHIA框架引入视觉语言模型作为评判者,并对生成结果进行物理合理性评估与迭代优化,实现了从“思考”到“行动”的完整闭环 [2] - 在WoWBench基准测试中,WoW模型在物理定律遵循(80.16%)和指令理解(96.53%)方面表现突出,证明了其强大的物理一致性与因果推理能力 [3] 模型架构与技术突破 - 推出WoW模型,这是一个基于200万条真实世界机器人交互轨迹训练而成的、拥有140亿参数的全生成式世界模型 [2] - 模型对物理规律的理解呈现为概率性的可能结果分布,这种特性可能引发随机不稳定和物理幻觉 [2] - 提出SOPHIA框架,通过引入视觉语言模型作为评判者,对生成结果进行物理合理性评估,并借助语言指令进行迭代优化 [2] - 框架中协同训练一个逆向动力学模型,负责将优化后的视觉想象转化为可执行的机器人动作,形成完整闭环 [2] - 模型架构体现了“想象、行动、反思”的智能体设计思想 [7] 性能评估与基准测试 - 为系统评估模型的物理一致性与因果推理能力,构建了WoWBench基准测试 [3] - 在该基准上,WoW模型在人工评估与自动评估中均达到领先水平 [3] - 模型在物理定律遵循方面得分达到80.16% [3] - 模型在指令理解方面得分达到96.53% [3] - 测试结果证明了模型在物理因果关系、碰撞动力学和物体持久性等方面的强大能力 [3] 行业趋势与应用前景 - 研究以扎实证据表明,大规模真实世界交互是培养AI物理直觉不可或缺的基石 [3] - 世界模型在具身智能领域存在垂直应用前景 [7] - 模型具备预测未来、推演物理、还原因果的能力 [7] - 行业关注可落地的实践应用场景 [7] - 分享内容涵盖了国内外世界模型的发展趋势 [7]
SLAM与视觉语言/目标导航有什么区别?
具身智能之心· 2025-11-27 00:04
行业技术定义与核心 - 具身导航是具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱 [2] - 目标驱动导航是具身导航中最具代表性的方向,要求智能体在陌生三维环境中,仅凭目标描述即可自主完成环境探索与路径规划 [2] - 该技术实现了从依赖显式指令的“听懂指令走对路”到自主决策的“看懂世界自己找路”的跃迁,背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破 [2] 产业化落地与应用场景 - 在终端配送场景,美团无人配送车通过动态路径重规划在复杂城市环境中执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署 [4] - 在医疗、酒店及餐饮场景,嘉楠科技、云迹科技、擎朗智能的商用服务机器人以及美国Aethon公司的TUG系列,已实现药品、文件和餐食的自主配送 [4] - 随着人形机器人发展,导航技术适配性升级成为新焦点,宇树科技Unitree系列通过Habitat预训练完成基础导航任务,智元机器人在工业场景集成该模块,特斯拉Optimus展示了“取放电池”等端到端操作能力 [4] 技术生态与评测体系 - 基于Habitat仿真的具身导航生态完整记录了领域技术迭代轨迹,自2020年CVPR提出点导航基准以来,评测体系逐步扩展至图像导航、目标导航及移动抓取任务 [5] - 技术进展呈现明显梯度:点导航和闭集物体导航接近人类表现,但开放词汇物体导航和动态障碍物场景仍面临重大挑战 [5] - Meta AI提出的Sim2Real迁移框架为仿真训练到真实部署提供了方法论参考,CMU与Stanford等机构持续推动动态环境下的语义地图更新技术 [5] 三代技术路线迭代 - **第一代端到端方法**:基于强化学习与模仿学习框架,在点导航与闭集图片导航任务中取得突破,部分方法的SPL指标已逼近人类表现 [6] - **第二代模块化方法**:通过显式构建语义地图将任务分解,在零样本目标导航任务中展现显著优势,在未见物体场景下成功率提升明显 [8] - **第三代LLM/VLM融合方法**:引入大语言模型的知识推理能力生成语义指导的探索策略,并通过视觉语言模型提升开放词汇目标匹配精度,当前研究重点在于设计场景表征接口 [10] 相关课程内容与结构 - 课程旨在解决目标驱动导航领域技术栈多、入门困难、知识碎片化、缺乏实战指导等挑战 [11] - 课程特点包括:基于Just-in-Time Learning理念快速入门、帮助学员构建领域框架与研究能力、理论结合实践完成闭环 [11][12][13] - 课程大纲共六章,系统覆盖语义导航核心框架、Habitat仿真生态、端到端导航方法论、模块化导航架构、LLM/VLM驱动的导航系统以及大作业 [15][17][18][19][20][21][22] - 大作业聚焦VLFM算法复现与真实场景部署,实践流程包括占据地图构建、边缘探索点生成与排序、值地图生成、导航策略构建及算法改进与实机部署探索 [23][27] - 课程为期3个月,采用离线视频教学配合VIP群答疑,进度安排覆盖从概述、仿真环境到三代核心方法的理论与实战,最终完成大作业 [28][29]
AAAI'26 Oral | 华科&小米提出新范式:教机器人「时间管理」,任务效率提升30%以上!
具身智能之心· 2025-11-26 10:00
文章核心观点 - 研究团队提出了一种名为GRANT的新型3D多模态大模型,通过将运筹学知识引入具身智能任务规划,使机器人能够像人类一样进行并行任务调度,从而显著提升任务执行效率[2] - 该方法的核心创新在于“大模型+求解器”的协同架构,让大语言模型负责语义理解和场景感知,而外部优化求解器负责复杂的数学规划,实现了任务完成效率30.53%的提升[2][16] - 此项工作标志着具身智能研究从单一的“语义理解”向高阶的“运筹决策”跨越,为开发真正具备“时间管理”能力的智能管家奠定了基础[22] 研究背景与痛点 - 现有具身智能机器人通常只能按顺序串行完成任务,缺乏人类“统筹方法”的能力,导致执行效率低下[3][5] - 根本原因在于现有机器人缺乏运筹学知识,无法识别哪些任务可并行处理,哪些任务必须独占注意力,同时还需在复杂3D场景中精准定位物体[6] 数据集创新 - 研究团队构建了首个融合运筹学知识的大规模3D具身数据集ORS3D-60K,包含4,376个真实室内场景和60,825个复合任务[10][12] - 该数据集平均指令长度高达311个单词,远超其他数据集,并且每条任务都经过运筹学求解器验证,提供了数学上的最优调度方案作为标注[12] - 数据集根据运筹学原理将子任务细分为非并行化子任务和并行化子任务,迫使模型进行全局最优规划而非局部决策[12][15] 技术方法与架构 - GRANT模型包含四个核心组件:3D场景编码器、大语言模型、调度令牌机制和3D定位头[16][19] - 调度令牌机制是关键创新,LLM不直接计算时间,而是预测子任务属性,然后通过特殊令牌调用外部优化求解器进行动态规划计算最优时间表[16][19] - 这种架构实现了“懂人话、认东西”与“算时间、排工序”的专业分工,结合了多模态理解与数学优化优势[19] 性能表现与实验结果 - 在ORS3D-60K数据集上,GRANT在综合性能指标上达到53.49,相比基线方法提升10.46个百分点[18] - 任务执行效率相比基线方法提升30.53%,同时3D定位精度不仅没有牺牲反而提升1.38%[19] - 实际案例显示,模型能将总耗时从74分钟压缩至45分钟,效率提升39%,并在每一步都实现高精度3D物体定位[21]
具身方向,论文“救援”来了!
具身智能之心· 2025-11-26 10:00
公司业务与服务定位 - 公司提供一站式论文辅导服务 专注于具身智能及相关前沿技术领域 旨在解决从选题到投稿的全流程学术难题 [1] - 服务覆盖从顶级会议CCF-A到CCF-C 以及SCI一区到四区、EI、中文核心、毕业论文和申博等多种学术产出需求 [1] - 公司提供1对1定制化辅导 核心方向包括多模态大模型、视觉语言动作、视觉语言导航、机器人抓取与导航、3D高斯泼溅、端到端具身智能体及具身合成数据生成等 [1] 核心团队与专业能力 - 导师团队来自CMU、Stanford、MIT等国内外名校的PhD及大厂研究员 具备顶级会议如ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR的审稿经验 [1] - 团队具备工业界与学术界双重视角 不仅关注论文发表 也关注技术的落地价值 例如机器人抓取的鲁棒性和导航的实时性优化 [3] 服务流程与价值主张 - 提供全流程闭环辅导 涵盖从选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略等关键环节 [2] - 公司为前10名咨询者提供免费匹配专属导师的服务 可进行深度会议并获得一对一的会议或期刊选投建议 [4]
具身智能之心技术交流群成立了!
具身智能之心· 2025-11-26 10:00
社群成立与目标 - 具身智能之心技术交流群正式成立,旨在促进相关技术领域的交流与合作 [1] - 社群主要关注方向包括视觉语言导航、遥操作、扩散策略、强化学习、多模态大模型等前沿技术领域 [1] 社群加入方式 - 感兴趣者可通过添加指定助理微信账号申请加入社群 [2] - 申请入群需按要求备注个人机构、姓名及研究方向信息以加速审核流程 [3]
2.64亿元订单!刷新全球人形机器人记录
具身智能之心· 2025-11-26 04:00
公司业务进展 - 优必选中标广西防城港市人形机器人数据采集与测试中心和人工智能科创教育示范项目,金额2.64亿元,产品以最新款人形机器人Walker S2为主 [2] - 项目涉及边境口岸的旅客和人员疏导、岗哨巡检、物流、商业服务以及国内钢铜铝大型生产制造基地的设施巡检等,预计12月交付 [2] - Walker S2机器人本月已陆续交付,主要应用于制造业和物流行业 [5] 产品市场表现 - Walker S2机器人今年订单总金额已达11亿元,为全球最大的单品人形机器人销售金额 [4] - 该订单表现给全球人形机器人市场带来了信心 [5]