单卡训练1亿高斯点，重建25平方公里城市：3DGS内存墙被CPU「外挂」打破了

文章核心观点 - 纽约大学研究团队提出名为CLM的系统，通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存中，使单张消费级显卡也能训练上亿规模的高斯点模型，显著降低了城市级3D重建的硬件门槛 [1] 3D高斯泼溅技术瓶颈 - 3D高斯泼溅在应用于城市街区等复杂场景时，GPU显存成为最直接且难解决的瓶颈 [2] - 一个高精度3DGS模型通常包含数千万乃至上亿个高斯点，每个点包含数十个参数，训练时还需保存梯度和优化器状态 [2] - 即便是拥有24GB显存的RTX 4090显卡，也只能容纳约一两千万个高斯点的完整训练状态，远不足以覆盖城市级场景 [2] - 此前扩展规模的方法要么成本高昂（多GPU并行），要么以牺牲重建质量为代价（压缩、裁剪等） [2] CLM系统的设计原理 - 设计出发点基于对训练过程的观察：在每次视角渲染中，真正参与计算的高斯点只占整个场景的极小一部分，单帧图像通常只会访问不到1%的高斯点 [3] - 核心设计思路是不再将所有高斯参数常驻显存，而是在需要时按视角动态加载 [3] - 该系统是一套围绕CPU-GPU协同设计的系统方案，并非简单地将数据从GPU搬到CPU [4] CLM系统的三项关键机制 - 属性分割：将每个高斯点的59个可学习参数分为两类，用于视锥剔除和可见性判断的“关键属性”（位置、旋转、缩放，共10个浮点数）永久保存在GPU显存中，这部分数据仅占单个高斯内存占用的不到20% [5] - 属性分割：其余约80%的“非关键属性”（如球谐系数、不透明度及其优化器状态）则被卸载到容量更大的CPU内存中，仅在需要时才被加载到GPU [6] - 预渲染视锥剔除与选择性加载：系统首先利用GPU中常驻的关键属性完成快速视锥裁剪，然后只从CPU内存中加载这些可见高斯点的完整参数，再交由GPU执行渲染与反向传播，这减少了GPU对不可见高斯的无效计算和内存占用 [7] - 预渲染视锥剔除与选择性加载：这一“预渲染视锥剔除”技术本身也是一个独立优化，可减少GPU计算量和内存占用，同样可以应用于无卸载的GPU-only训练 [8] - 优化CPU-GPU通信：通过微批次流水线设计，将一个训练批次拆分为多个微批次，通过双缓冲和异步执行重叠通信与计算，有效隐藏通信延迟 [10] - 优化CPU-GPU通信：利用缓存机制，根据连续视角间的空间局部性缓存重复使用的高斯点，避免反复从CPU加载相同数据 [11] - 优化CPU-GPU通信：通过智能调度，将渲染顺序建模为“旅行商问题”，寻找高斯点重用率最高的视角排列，从而最大化缓存命中、最小化数据搬运 [11] - 通过上述设计，使CPU成为可以与GPU高效协同的计算资源，而不仅仅是辅助性的“慢速仓库” [12] CLM系统的实测效果 - 规模突破：在“MatrixCity BigCity”这个面积达25.3平方公里的城市级航拍数据集上，传统GPU-only方法在RTX 4090上最多只能训练1530万个高斯点，而CLM成功训练了1.022亿个高斯点，模型规模扩大了6.7倍，比仅使用卸载功能时大2.2倍 [13][14] - 速度可控：凭借精心设计的重叠计算，CLM在RTX 4090上的训练吞吐量能达到增强型基线吞吐量的55%至90%，在RTX 2080 Ti上甚至能达到基线的86%至97% [16] - 质量提升：1.022亿高斯点模型的渲染PSNR达到25.15dB，显著优于1530万点模型的23.93dB [18] - 通用性强：该方案与具体后端渲染引擎无关，并可扩展至其他splatting算法微调方式 [19] 产业意义与应用前景 - CLM是一项直接面向真实部署瓶颈的系统工程研究，其核心贡献在于首次系统性地将CPU内存和计算资源纳入了3DGS训练的资源分配体系中 [20] - 该研究为学术界和工业界进行超大规模场景重建提供了一种不依赖多GPU集群的高性价比可行路径 [20] - 随着数字孪生、大规模地图重建等应用需求增长，能在现实硬件条件下稳定扩展规模对相关工作的开展非常有利 [20] - CLM展示了通过软硬件协同、重新组织既有计算资源，在不增加专用硬件投入的情况下推进3DGS实用化的可能方向 [20]