AAAI 2026 Oral | 华科&小米提出具身智能新范式:教机器人「时间管理」
具身智能之心·2025-11-27 00:04

文章核心观点 - 研究团队提出了一种名为GRANT的新型3D多模态大模型,通过将运筹学知识引入具身智能领域,使机器人能够进行并行任务规划,从而显著提升任务执行效率[2] - 该方法在ORS3D-60K数据集上的实验结果显示,任务完成效率相比基线方法提升了30.53%,3D定位精度提升了1.38%,综合性能提升了10.46%[19] - 这项工作标志着具身智能研究从单一的“语义理解”向高阶的“运筹决策”跨越,为未来智能管家机器人的实际应用奠定了基础[22] 研究背景与痛点 - 当前具身智能机器人通常只能按顺序串行完成任务,缺乏人类“统筹方法”的能力,导致执行效率低下[3] - 核心问题在于现有机器人缺乏运筹学知识,无法识别哪些任务可以并行执行,哪些必须独占注意力[5] - 例如,面对“微波炉热饭35分钟”和“洗水槽20分钟”的指令,机器人串行执行需55分钟,而人类并行执行只需35分钟[8] 技术方案与创新 - 提出了基于运筹学知识的3D定位任务调度新任务,并构建了包含4,376个场景和60,825个复合任务的大规模数据集ORS3D-60K[6][12] - 数据集中平均指令长度达311个单词,包含复杂的时间约束和空间描述,并经过运筹学求解器验证提供最优调度方案[13] - 设计了GRANT框架,采用“大模型+求解器”协同架构,通过调度令牌机制让LLM负责语义理解,外部求解器负责数学优化[16][19] 数据集特点 - ORS3D-60K数据集规模达60,825个任务,远超同类数据集如TaPA的15,418个任务和LEO的13,848个任务[12] - 数据集创新性地将子任务分为非并行化任务和并行化任务,前者需持续操作,后者仅需启动和检查[15] - 该数据集填补了现有数据集中缺乏运筹学调度与3D空间联合考察的空白[22] 实验结果 - 在时间效率指标上,GRANT相比Grounded 3D LLM等基线方法提升30.53%[19] - 3D定位准确率达到53.49%,显著高于3D-VisTA的13.73%和PQ3D的14.03%[18] - 实际案例显示,模型将总耗时从74分钟压缩至45分钟,效率提升39%[21]