单卡训练1亿高斯点，重建25平方公里城市：3DGS内存墙被CPU「外挂」打破了

文章核心观点 - 纽约大学研究团队提出的CLM系统，通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存，使单张消费级显卡也能训练上亿规模的高斯点模型，显著降低了城市级3D重建的硬件门槛 [1] 3DGS的规模应用瓶颈 - 3D高斯泼溅技术面临GPU显存瓶颈，高精度模型包含数千万至上亿个高斯点，单张RTX 4090仅能容纳约一两千万个高斯点的完整训练状态，不足以覆盖城市级场景 [2] - 此前扩展规模的方法成本高昂或会牺牲重建质量 [2] CLM系统的设计原理 - 基于训练过程中单帧图像通常只会访问不到1%的高斯点这一观察，CLM不再将所有高斯参数常驻显存，而是在需要时按视角动态加载 [3][4] - CLM是一套围绕CPU-GPU协同设计的系统方案 [5] CLM系统的三项关键机制 - 属性分割：将每个高斯点的59个参数分为关键与非关键属性，仅将用于视锥剔除的位置、旋转和缩放等关键属性（占内存不到20%）永久保存在GPU显存，其余约80%的非关键属性卸载到CPU内存 [6][7] - 预渲染视锥剔除与选择性加载：在渲染前利用GPU中的关键属性快速完成视锥裁剪，仅从CPU内存加载可见高斯点的完整参数，减少了GPU的无效计算和内存占用 [8][9][10] - 优化数据传输以降低延迟：通过微批次流水线将数据加载与GPU计算重叠、缓存机制利用空间局部性、以及将渲染顺序建模为旅行商问题以最大化缓存命中，来缓解CPU参与训练可能带来的速度拖慢问题 [12][13][14][15] CLM系统的实测效果 - 规模突破：在MatrixCity BigCity数据集上，传统GPU-only方法在RTX 4090上最多训练1530万个高斯点，而CLM成功训练了1.022亿个高斯点，模型规模扩大了6.7倍 [16] - 质量提升：1.022亿高斯点模型的渲染PSNR达到25.15dB，显著优于1530万点模型的23.93dB [18] - 速度可控：在RTX 4090上，CLM的训练吞吐量能达到增强型基线吞吐量的55%至90% [19] - 通用性强：该方案与具体后端渲染引擎无关，并可扩展至其他splatting算法 [20] 产业意义与影响 - CLM首次系统性地将CPU内存和计算资源纳入了3DGS训练的资源分配体系，为超大规模场景重建提供了一种高性价比的可行路径 [21] - 该研究通过软硬件协同重新组织既有计算资源，展示了在不增加专用硬件投入的情况下推进3DGS实用化的可能方向，对数字孪生、大规模地图重建等应用需求增长非常有利 [21]