单卡训练1亿高斯点，重建25平方公里城市：3DGS内存墙被CPU「外挂」打破了

文章核心观点 - 纽约大学研究团队提出名为CLM的系统，通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存，使单张消费级显卡也能训练上亿规模的高斯点模型，显著降低了城市级3D重建的硬件门槛[3] 3DGS的规模应用瓶颈 - 3D高斯泼溅在应用于城市街区等复杂场景时，GPU显存成为最直接且难解决的瓶颈[5] - 一个高精度3DGS模型通常包含数千万乃至上亿个高斯点，每个点包含数十个参数，训练还需保存梯度和优化器状态[5] - 即便是24GB显存的RTX 4090，也只能容纳约一两千万个高斯点的完整训练状态，远不足以覆盖城市级场景[5] - 此前扩展规模的方法不理想：多GPU并行训练成本高昂，或通过压缩等方式减少高斯数量但牺牲重建质量[6] CLM系统的设计原理 - 研究发现，在3DGS训练的每一次视角渲染中，真正参与计算的高斯点只占整个场景的极小一部分，单帧图像通常只会访问不到1%的高斯点[7] - 设计思路是不再将所有高斯参数常驻显存，而是在需要时按视角动态加载[8] - 系统通过三项关键机制实现CPU-GPU协同[9] - 机制一：属性分割：将每个高斯点的59个参数分为两类，用于视锥剔除的“关键属性”（位置、旋转、缩放，共10个浮点数）永久保存在GPU显存，仅占单个高斯内存占用的不到20%；其余约80%的“非关键属性”卸载到CPU内存，需要时才加载[10][11] - 机制二：预渲染视锥剔除与选择性加载：在渲染前显式计算当前视角中可见的高斯点索引，仅从CPU内存加载这些可见点的完整参数，减少了GPU对不可见高斯的无效计算和内存占用[12] - 机制三：优化数据传输：通过微批次流水线将参数加载与GPU计算重叠以隐藏通信延迟；利用缓存机制避免反复加载相同数据；通过智能调度（建模为旅行商问题）寻找高斯点重用率最高的视角排列以最大化缓存命中[15][16][17] CLM系统的性能与效果 - 规模突破：在“MatrixCity BigCity”数据集上，传统GPU-only方法在RTX 4090上最多训练1530万个高斯点，而CLM成功训练了1.022亿个高斯点，模型规模扩大了6.7倍，比仅使用卸载功能时大2.2倍[18] - 速度可控：凭借重叠计算设计，CLM在RTX 4090上的训练吞吐量能达到增强型基线吞吐量的55%至90%；在RTX 2080 Ti上，吞吐量甚至能达到基线的86%至97%[23] - 通用性强：该方案与具体后端渲染引擎无关，并可扩展至其他splatting算法[21] 产业意义与应用前景 - CLM是一项直接面向真实部署瓶颈的系统工程研究，核心贡献在于首次系统性地将CPU内存和计算资源纳入了3DGS训练的资源分配体系[22] - 为学术界和工业界进行超大规模场景重建提供了一种不依赖多GPU集群的高性价比可行路径[22] - 随着数字孪生、大规模地图重建等应用需求增长，能在现实硬件条件下稳定扩展规模对相关工作开展非常有利[22] - 展示了通过软硬件协同、重新组织既有计算资源，在不增加专用硬件投入的情况下推进3DGS实用化的可能方向[22]