单卡训练1亿高斯点,重建25平方公里城市:3DGS内存墙被CPU「外挂」打破了
具身智能之心·2025-12-24 00:25

文章核心观点 - 纽约大学研究团队提出名为CLM的系统,通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存,使单张消费级显卡也能训练上亿规模的高斯点模型,显著降低了城市级3D重建的硬件门槛[3] 3DGS的规模应用瓶颈 - 3D高斯泼溅在应用于城市街区等复杂场景时,GPU显存成为最直接且难解决的瓶颈[5] - 一个高精度3DGS模型通常包含数千万乃至上亿个高斯点,每个点包含数十个参数,训练还需保存梯度和优化器状态[5] - 即便是24GB显存的RTX 4090,也只能容纳约一两千万个高斯点的完整训练状态,远不足以覆盖城市级场景[5] - 此前扩展规模的方法不理想:多GPU并行训练成本高昂,或通过压缩等方式减少高斯数量但牺牲重建质量[6] CLM系统的设计原理 - 研究发现,在3DGS训练的每一次视角渲染中,真正参与计算的高斯点只占整个场景的极小一部分,单帧图像通常只会访问不到1%的高斯点[7] - 设计思路是不再将所有高斯参数常驻显存,而是在需要时按视角动态加载[8] - 系统通过三项关键机制实现CPU-GPU协同[9] - 机制一:属性分割:将每个高斯点的59个参数分为两类,用于视锥剔除的“关键属性”(位置、旋转、缩放,共10个浮点数)永久保存在GPU显存,仅占单个高斯内存占用的不到20%;其余约80%的“非关键属性”卸载到CPU内存,需要时才加载[10][11] - 机制二:预渲染视锥剔除与选择性加载:在渲染前显式计算当前视角中可见的高斯点索引,仅从CPU内存加载这些可见点的完整参数,减少了GPU对不可见高斯的无效计算和内存占用[12] - 机制三:优化数据传输:通过微批次流水线将参数加载与GPU计算重叠以隐藏通信延迟;利用缓存机制避免反复加载相同数据;通过智能调度(建模为旅行商问题)寻找高斯点重用率最高的视角排列以最大化缓存命中[15][16][17] CLM系统的性能与效果 - 规模突破:在“MatrixCity BigCity”数据集上,传统GPU-only方法在RTX 4090上最多训练1530万个高斯点,而CLM成功训练了1.022亿个高斯点,模型规模扩大了6.7倍,比仅使用卸载功能时大2.2倍[18] - 速度可控:凭借重叠计算设计,CLM在RTX 4090上的训练吞吐量能达到增强型基线吞吐量的55%至90%;在RTX 2080 Ti上,吞吐量甚至能达到基线的86%至97%[23] - 通用性强:该方案与具体后端渲染引擎无关,并可扩展至其他splatting算法[21] 产业意义与应用前景 - CLM是一项直接面向真实部署瓶颈的系统工程研究,核心贡献在于首次系统性地将CPU内存和计算资源纳入了3DGS训练的资源分配体系[22] - 为学术界和工业界进行超大规模场景重建提供了一种不依赖多GPU集群的高性价比可行路径[22] - 随着数字孪生、大规模地图重建等应用需求增长,能在现实硬件条件下稳定扩展规模对相关工作开展非常有利[22] - 展示了通过软硬件协同、重新组织既有计算资源,在不增加专用硬件投入的情况下推进3DGS实用化的可能方向[22]