单卡训练1亿高斯点,重建25平方公里城市:3DGS内存墙被CPU「外挂」打破了
量子位·2025-12-23 04:16

文章核心观点 - 纽约大学研究团队提出的CLM系统,通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存,使单张消费级显卡也能训练上亿规模的高斯点模型,显著降低了城市级3D重建的硬件门槛 [1] 3DGS的规模应用瓶颈 - 3D高斯泼溅技术面临GPU显存瓶颈,高精度模型包含数千万至上亿个高斯点,单张RTX 4090仅能容纳约一两千万个高斯点的完整训练状态,不足以覆盖城市级场景 [2] - 此前扩展规模的方法成本高昂或会牺牲重建质量 [2] CLM系统的设计原理 - 基于训练过程中单帧图像通常只会访问不到1%的高斯点这一观察,CLM不再将所有高斯参数常驻显存,而是在需要时按视角动态加载 [3][4] - CLM是一套围绕CPU-GPU协同设计的系统方案 [5] CLM系统的三项关键机制 - 属性分割:将每个高斯点的59个参数分为关键与非关键属性,仅将用于视锥剔除的位置、旋转和缩放等关键属性(占内存不到20%)永久保存在GPU显存,其余约80%的非关键属性卸载到CPU内存 [6][7] - 预渲染视锥剔除与选择性加载:在渲染前利用GPU中的关键属性快速完成视锥裁剪,仅从CPU内存加载可见高斯点的完整参数,减少了GPU的无效计算和内存占用 [8][9][10] - 优化数据传输以降低延迟:通过微批次流水线将数据加载与GPU计算重叠、缓存机制利用空间局部性、以及将渲染顺序建模为旅行商问题以最大化缓存命中,来缓解CPU参与训练可能带来的速度拖慢问题 [12][13][14][15] CLM系统的实测效果 - 规模突破:在MatrixCity BigCity数据集上,传统GPU-only方法在RTX 4090上最多训练1530万个高斯点,而CLM成功训练了1.022亿个高斯点,模型规模扩大了6.7倍 [16] - 质量提升:1.022亿高斯点模型的渲染PSNR达到25.15dB,显著优于1530万点模型的23.93dB [18] - 速度可控:在RTX 4090上,CLM的训练吞吐量能达到增强型基线吞吐量的55%至90% [19] - 通用性强:该方案与具体后端渲染引擎无关,并可扩展至其他splatting算法 [20] 产业意义与影响 - CLM首次系统性地将CPU内存和计算资源纳入了3DGS训练的资源分配体系,为超大规模场景重建提供了一种高性价比的可行路径 [21] - 该研究通过软硬件协同重新组织既有计算资源,展示了在不增加专用硬件投入的情况下推进3DGS实用化的可能方向,对数字孪生、大规模地图重建等应用需求增长非常有利 [21]