Workflow
体素对齐
icon
搜索文档
前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息
36氪· 2025-09-29 07:26
在三维重建不断走向工程化的今天,前馈式3D Gaussian Splatting(Feed-Forward 3DGS)正火速走向产业化。 然而,现有的前馈3DGS方法主要采用"像素对齐"(pixel-aligned)策略——即将每个2D像素单独映射到一个或多个3D高斯上。 这一做法看似直观,但仍面临两道不可忽视的"天花板":二维特征难以在三维中精确对齐、以及高斯基元数量被像素网格死死绑定,无 法按场景复杂度智能分配。 VolSplat大胆抛弃像素对齐的固有范式,提出"体素对齐"(voxel-aligned)的前馈框架:在三维空间中融合视图信息,从根本上破局,让 高质量的多视角渲染变得更鲁棒、更高效、更易工程化。 在公开数据集上的对比实验显示,VolSplat在RealEstate10K和ScanNet(室内)数据集上的视觉质量与几何一致性上均优于多种pixel- aligned baseline。这些数值既说明了视觉质量的提升,也反映了几何一致性的增强。 | Method | PSNR + | SSIM ↑ | LPIPS T | PGS | | --- | --- | --- | --- | --- | | ...
前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息
量子位· 2025-09-29 04:57
核心观点 - VolSplat通过体素对齐策略突破像素对齐方法的局限性 显著提升三维重建的视觉质量与几何一致性 并展现出优异的工程化潜力与跨数据集泛化能力 [2][4][15] 技术突破 - 采用体素对齐框架替代像素对齐策略 在三维空间直接融合多视角特征 解决二维特征难以三维对齐及高斯基元数量受像素网格限制的问题 [2][6][7] - 通过三维体素网格实现多视角特征聚合与多尺度细化 天然消除视图间不一致性 并支持高斯基元根据场景复杂度动态分配 [7][9][13] - 在RealEstate10K数据集上PSNR达31.30(较最佳基线27.47提升13.9%) SSIM达0.941(较基线0.889提升5.8%) LPIPS降至0.075(较基线0.114改善34.2%) [5] - 在ScanNet室内数据集上PSNR达28.41(较基线27.45提升3.5%) SSIM达0.906(较基线0.829提升9.3%) LPIPS降至0.127(较基线0.222改善42.8%) [5] 工程化优势 - 模块化设计分为三阶段:2D特征与深度估计 像素到体素的反投影聚合 体素级特征细化与高斯回归 便于分步调试与系统优化 [9][11][12][14] - 支持与外部3D信号(深度图 点云)自然融合 无需复杂投影操作 提升系统扩展性 [13] - 使用稀疏3D U-Net进行多尺度几何上下文融合 以残差形式预测体素修正项 提升计算效率与稳健性 [14] 应用前景 - 在机器人及自动驾驶领域可提供更稳定的三维感知输入 [19] - 在AR/VR领域可实现更流畅真实的渲染体验 显著减少浮空伪影与几何畸变 [17][19] - 在三维视觉研究中为多模态数据融合提供新途径 具备跨数据集零样本泛化能力(ACID数据集PSNR达32.65dB) [15][19]