AR/VR渲染

搜索文档
前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息
量子位· 2025-09-29 04:57
核心观点 - VolSplat通过体素对齐策略突破像素对齐方法的局限性 显著提升三维重建的视觉质量与几何一致性 并展现出优异的工程化潜力与跨数据集泛化能力 [2][4][15] 技术突破 - 采用体素对齐框架替代像素对齐策略 在三维空间直接融合多视角特征 解决二维特征难以三维对齐及高斯基元数量受像素网格限制的问题 [2][6][7] - 通过三维体素网格实现多视角特征聚合与多尺度细化 天然消除视图间不一致性 并支持高斯基元根据场景复杂度动态分配 [7][9][13] - 在RealEstate10K数据集上PSNR达31.30(较最佳基线27.47提升13.9%) SSIM达0.941(较基线0.889提升5.8%) LPIPS降至0.075(较基线0.114改善34.2%) [5] - 在ScanNet室内数据集上PSNR达28.41(较基线27.45提升3.5%) SSIM达0.906(较基线0.829提升9.3%) LPIPS降至0.127(较基线0.222改善42.8%) [5] 工程化优势 - 模块化设计分为三阶段:2D特征与深度估计 像素到体素的反投影聚合 体素级特征细化与高斯回归 便于分步调试与系统优化 [9][11][12][14] - 支持与外部3D信号(深度图 点云)自然融合 无需复杂投影操作 提升系统扩展性 [13] - 使用稀疏3D U-Net进行多尺度几何上下文融合 以残差形式预测体素修正项 提升计算效率与稳健性 [14] 应用前景 - 在机器人及自动驾驶领域可提供更稳定的三维感知输入 [19] - 在AR/VR领域可实现更流畅真实的渲染体验 显著减少浮空伪影与几何畸变 [17][19] - 在三维视觉研究中为多模态数据融合提供新途径 具备跨数据集零样本泛化能力(ACID数据集PSNR达32.65dB) [15][19]