Workflow
IROS 2025 Oral|无界智慧推出3D-MoRe:助力空间理解,提升复杂三维环境中的推理能力
具身智能之心·2025-07-19 09:46

3D-MoRe模型技术突破 - 模型采用"生成-融合-推理"一体化范式,集成多模态嵌入、跨模态交互与语言模型解码器,显著提升3D场景理解与推理能力[3][4][9] - 通过自适应多模态数据融合技术生成62,000个问答对和73,000个物体描述,覆盖1513个室内场景,数据规模远超原始ScanQA和ScanRefer数据集[3][6][9] - 在ScanQA任务中CIDEr评分提升2.15%,ScanRefer任务中CIDEr@0.5指标提升1.84%,性能超越Chat-3D V2等现有模型[3][9][23] 核心技术创新 - 提出分层跨模态交互推理架构(CMIM),包含多模态嵌入模块、交叉注意力融合模块和LLM解码器三大组件,实现文本、视觉提示与3D场景的高效融合[15][21][24] - 开发语义质量控制技术,采用BERT嵌入量化语义相似度,结合RoBERTa推断评估语义一致性,确保数据生成质量[11][12] - 应用同义词替换、逻辑反转、顺序重排等数据增强技术,配合T5模型进行文本转换,显著提升模型泛化能力[12][13] 行业应用价值 - 该模型可扩展至视觉定位、具身导航等3D多模态任务,为服务机器人系统提供通用技术框架[30] - 团队已面向康养场景开发智能陪护机器人,部署于养老院、社区等多场景,推动具身智能商业化落地[29] - 公开的代码库与大规模数据集(62K+73K)有效降低行业研究门槛,加速3D-语言交叉领域技术突破[9][30] 研发团队背景 - 核心团队由CMU、MBZUAI、中科院等机构研究人员组成,在CVPR、ICML等顶会发表论文数百篇[29] - 技术负责人曾提出基于空间可供性操作大模型A0和视频具身导航大模型NaVid,拥有29篇一作/通讯论文含3篇ESI高被引[2] - 当前重点研发基于时空智能的通用具身大模型,持续推动人形机器人技术迭代[29]