DEGround

搜索文档
武汉大学&北理工等SOTA方案!DEGround:增强具身三维环境中的语境理解
具身智能之心· 2025-07-12 13:59
3D Grounding模型性能问题 - 当前主流的两阶段3D Grounding模型在实证中表现不佳,未达到预期效果,反而未接受语言监督、仅依赖目标类别筛选的检测模型在Grounding任务中表现更优[2] - 实验结果显示,仅通过关键词匹配的简单策略在性能上超越了经过完整语义解析训练的Grounding模型,暴露出当前模型在物体类别识别层面的短板[2] DEGround设计理念与方法架构 - DEGround通过共享查询机制实现检测能力向Grounding任务的自然迁移,采用RAG模块增强语言语义与空间区域的对齐能力,并引入QIM模块提升查询对指令的适应性[4][6] - RAG模块通过跨模态语义对齐与空间显著性建模锁定目标区域,QIM模块利用语言引导的特征变换动态调整查询表示空间[12] DEGround性能表现 - 在EmbodiedScan视觉定位基准上,DEGround以71.42%的Easy@0.25分数和60.99%的Hard@0.25分数排名第一,显著超越第二名BIP3D的71.22%和62.91%[5] - 在3D检测任务中,DEGround实现24.68%的整体性能,相比BIP3D的20.91%提升3.77个百分点,在Head类别上达到34.45%的检测率[10][11] - 在EmbodiedScan测试集中,DEGround以62.18%的Overall分数超越使用更强视觉主干网络(Swin-T)的BIP3D(54.66%)[9] 可视化与语义理解优势 - 可视化结果显示DEGround能精准识别复杂指令中的目标物体,如"find the ball that is near the paper",而基准模型EmbodiedScan出现误选[13] - 在涉及空间关系的指令处理中,DEGround能准确区分干扰物并锁定目标,展示出更强的语义理解与空间推理能力[13] - RAG模块生成的区域相似度图证实其能有效激活与语言描述高度相关的空间区域[15] 技术突破与行业影响 - DEGround的统一架构实现多模态多视角输入的融合,构建同时包含空间结构与语义信息的三维特征表达[12] - 该方法在CVPR 2024 Autonomous Grand Challenge的Multi-view 3D Visual Grounding赛道全面超越DenseGrounding等现有方案[9] - 框架在ScanNet(65.03%)和3RScan(65.98%)数据集上表现尤为突出,显示对复杂室内场景的强适应能力[9][10]