Workflow
自动标注
icon
搜索文档
ICCV'25!清华GS-Occ3D:纯视觉规模化Occ重建,自动标注新范式~
自动驾驶之心· 2025-08-22 16:04
研究背景与动机 - L4级自动驾驶商业化浪潮到来,特斯拉Robotaxi落地运营、小马智行和文远知行成功上市、百度萝卜快跑快速扩张,标志着行业迈向大规模部署 [3] - 占据栅格(Occupancy)作为感知核心提供关键几何先验,但主流标注方法严重依赖激光雷达,成本高昂且难以扩展 [3][6] - 消费级车辆众包数据无法被现有激光雷达依赖方案有效利用,行业亟需低成本可规模化的自动标注新范式 [3][7] 技术方案创新 - 提出基于八叉树的高斯面元场景表示方法,整合地面、背景和动态物体实现纯视觉规模化几何重建 [7][13] - 通过逐帧划分和多帧聚合提升点云密度,显式处理相机视角遮挡问题 [13] - 采用5摄像头输入配置,在增加更多视角时性能不会下降,而其他方法可能出现性能衰减 [25][29] - 直接重建点云的方式对该任务更合适且更具可扩展性 [25] 性能表现 - 在Waymo数据集实现SOTA几何重建结果:倒角距离(CD)仅0.56,PSNR达到26.89,训练时间仅0.8小时,GPU显存占用10GB [15] - 在Occ3D-Waymo验证集上取得IoU 44.7和F1分数61.8,与激光雷达方案结果相当 [16] - 在Occ3D-nuScenes上展示优越的零样本泛化能力:IoU 33.4 vs 激光雷达方案的31.4,F1分数50.1 vs 47.8 [16][17] - 重建语义类别达到66类,远超Occ3D的16类,能识别摩托车、车道线和人行横道等对驾驶至关重要的语义信息 [32] 竞争优势 - 成本效益显著高于激光雷达方案,可利用消费级车辆众包数据进行自动标注 [3][10] - 在弱纹理区域展现更高重建保真度,结构完整性媲美激光雷达点云 [20] - 具备更广的空间覆盖范围,特别是在重建高层建筑时性能甚至超越激光雷达 [32] - 在恶劣天气条件下潜力更大,能利用图像域丰富的纹理和语义信息进行有效重建 [33] 应用前景 - 为无先验信息的占据栅格模型训练提供可靠监督信号 [22] - 凸显大规模纯视觉占据栅格重建技术作为感知新范式的巨大潜力 [36] - 可服务于下游占据栅格模型训练,使模型能够泛化到未见过的场景并具备几何推理能力 [13] - 为行业提供低成本、可规模化的自动标注解决方案,推动自动驾驶技术大规模部署 [3][10]