特斯拉3D重建可以参考的前馈GS算法有哪些?
自动驾驶之心·2025-11-17 00:05

文章核心观点 - 文章系统梳理了前馈式3D高斯泼溅(Feed-Forward 3D Gaussian Splatting)技术的最新研究进展,重点介绍了从CVPR 2024到CVPR 2025期间涌现的多篇代表性论文 [2] - 前馈式3DGS旨在克服传统“逐场景优化”方法的不便,实现无需针对每个新场景进行耗时优化的快速、通用化三维重建 [2] - 该技术路线已成为计算机视觉和三维重建领域的一个重要发展方向,并在人体重建、驾驶场景重建等多个应用领域展现出潜力 [74][77][82][85] CVPR 2024 代表性工作 - pixelSplat:通过编码器预测密集概率分布并从中采样高斯均值,利用重参数化技巧使采样操作可微分,从而避免局部最小值问题,仅需一对图像即可进行前馈重建 [3][6][7] - GPS-Gaussian:引入定义在源视角图像平面上的2D高斯参数图,通过可学习的反投影操作得到3D高斯点,主要用于人体重建并依赖真实深度进行监督 [8][9][10] - TriplaneGaussian:首个利用高斯泼溅从单视图图像实现通用化三维重建的研究,核心是利用三平面表示 [11][13] - Splatter Image:设计简单网络将输入图像映射为每个像素一个3D高斯函数,将重建问题转化为图像到图像的网络学习问题,计算效率高但主要关注物体级重建 [14][16][17] ECCV 2024 代表性工作 - MVSplat:利用Transformer提取多视图图像特征并构建代价体积,通过反投影获得3D高斯中心,证明了代价体积表示在学习前馈高斯中的重要性 [28][30][31] - GRM:基于前馈Transformer的像素对齐高斯模型,有效整合多视角信息,将输入像素转换为像素对齐的高斯函数以创建密集3D高斯集合,但尚未开源 [32][34][35] - GS-LRM:采用基于Transformer的简单网络架构,预测每个像素的高斯分布,使3D高斯保留输入图像中的高频细节 [36][38][39] - Gaussian Graph Network (GGN):构建高斯图来建模来自不同视角的高斯组之间的关系,通过高斯特征融合和池化策略实现高效表示 [47][48] 2025年最新进展 (CVPR/ICLR/AAAI) - DepthSplat:将高斯泼溅与深度估计两个领域连接,利用预训练单目深度特征增强多目特征匹配,构建鲁棒的多目深度模型以提高重建质量 [60][62][63][66] - MonoSplat:直接利用冻结的深度基础模型中嵌入的丰富视觉先验知识,通过单目-多目特征适配器实现更高效、更泛化的高斯重建 [67][68][69][72] - HiSplat:在前馈3DGS中引入分层方式,通过由粗到细的策略构建分层3D高斯,并利用误差感知模块和调制融合模块实现联合优化 [54][56][57][59] 技术应用领域拓展 - 人体重建:Generalizable Human Gaussians和HumanSplat等研究专注于在稀疏视图下实现可泛化的人体渲染,结合人体结构先验 [74][76][77][81] - 驾驶场景重建:DrivingForward和EVolSplat等模型从车载摄像头的稀疏环视输入中学习,支持实时重建复杂的驾驶场景 [82][84][85] - 医学影像:X-GRM模型将大型前馈Transformer应用于从稀疏X射线投影到计算机断层扫描的重建任务 [87][90]