Workflow
全球首个人形机器人通用视觉感知系统,Humanoid Occupancy建立多模态环境理解新范式
机器之心·2025-08-05 04:09

人形机器人感知系统 - 人形机器人核心任务涵盖操作、移动与导航三大领域,需以全面精准的环境理解为前提[7] - 传统感知系统存在适配性差、多模态信息融合效率低等问题,导致实际应用中感知失效频发[7] Humanoid Occupancy系统创新 - 采用语义占用表征作为核心范式,具备三维空间全面编码和天然适配多模态融合两大优势[8] - 通过体素编码实现环境空间单元占据状态与语义类别的精准捕捉,优于传统BEV表征[8] - 支持RGB图像、深度信息、LiDAR点云等多类传感器数据的统一整合[8] 关键技术实现 - 传感器布局优化:配备6个RGB相机(前后各1、两侧各2)和1个360度水平视场角激光雷达,避免设备遮挡[12] - 构建首个人形机器人全景占用感知数据集,涵盖家居、工业等多场景,采用动静态解耦标注方法[14] - 设计轻量化多模态时序融合网络,通过Transformer解码器实现跨模态可变形注意力融合[14] 性能验证 - 对比实验中,Humanoid Occupancy模型参数仅40.5M,mIoU达55.73,优于BEVDet(47.95)和BEVFusion(53.21)[17][18] - 时序聚合实验显示,双帧输入使mIoU从52.79提升至55.73,验证历史特征融合有效性[22] - 多模态融合使mIoU达55.73,显著高于单模态(相机50.37/LiDAR48.61)[23] 行业影响 - 解决传感器布局、数据标注和多模态融合等关键挑战,推动通用感知模块标准化[28] - 未来将扩展数据集并优化时序策略,应用于家庭服务、工业协作、户外救援等领域[28]