Workflow
Computer Graphics
icon
搜索文档
3DGS论文原理与论文源码学习,尽量无痛版
自动驾驶之心· 2025-12-06 03:04
3D高斯泼溅技术趋势与课程内容 - 3D高斯泼溅技术正逐步取代神经辐射场技术,因其技术实现相对更容易[2] - 该技术已获得广泛应用,尤其是前馈式3D高斯泼溅技术近期备受关注[3] 课程结构与学习路径 - 课程共分六章,从背景知识到前沿研究方向系统展开[6][7][8][9][10][11] - 课程采用离线视频教学,配合VIP群答疑与三次线上交流,学习周期预计两个半月[13] - 课程内容设计耗时两个月,旨在提供从理论到实战的完整学习路线图[3] 核心技术模块详解 - **第一章**:涵盖计算机图形学基础,包括三维空间表达、渲染管线及光线追踪,并介绍COLMAP、Gsplat等主流开发工具,附带基于3D Real Car的实践作业[6] - **第二章**:深入讲解3D高斯泼溅原理、核心伪代码及动态重建、表面重建等算法,实战部分使用英伟达开源的3DGRUT框架[7] - **第三章**:聚焦自动驾驶仿真重建,解析Street Gaussian、OmniRe及Hierarchy UGP等关键工作,实战选用DriveStudio框架[8] - **第四章**:探讨COLMAP扩展、深度估计及重照明等重要研究方向,并分析其工业应用与学术前景[9] - **第五章**:梳理前馈式3D高斯泼溅的发展历程与原理,讲解AnySplat和WorldSplat等最新算法[10] 讲师背景与课程特色 - 讲师Chris拥有QS前20大学硕士学位,现任某Tier1厂商算法专家,在端到端仿真、多模态大模型及三维重建领域具备丰富经验[3] - 课程提供与学术界及工业界同行持续交流的机会,旨在帮助学员掌握完整技术栈并提升就业竞争力[15] - 课程设有早鸟优惠,名额仅限20名[3][16] 目标学员与先决条件 - 课程面向希望入门或深化3D高斯泼溅技术的学习者,对实习、校招及社招均有助益[15] - 学员需自备GPU,推荐算力在RTX 4090及以上[15] - 学员需具备计算机图形学基础、对视觉重建等相关技术有一定了解,并掌握Python与PyTorch编程[15]
打破显存墙:谢赛宁团队提出CLM,单卡RTX 4090「撬动」1亿高斯点
机器之心· 2025-11-11 08:40
3D Gaussian Splatting (3DGS) 技术概述 - 3DGS是一种新视角合成方法,通过迭代训练由大量各向异性3D高斯体组成的场景表示,以捕捉场景的外观和几何形状 [2] - 与其他方法相比,3DGS具有更快的渲染速度,同时能保持相当的图像质量,因此在3D建模、数字孪生、影视制作、VR/AR和机器人视觉重建等领域展现出革命性应用潜力 [4][5] - 3DGS渲染的图像质量取决于场景表示的保真度,处理大面积或复杂场景需要更多高斯体,导致内存占用随场景大小、复杂性或输出图像分辨率增加而增长 [5] CLM系统的技术创新 - CLM系统由谢赛宁团队提出,旨在解决3DGS在扩展应用时GPU显存容量不足的障碍,允许使用单块消费级GPU(如RTX 4090)渲染大型场景 [6][8] - 系统的设计基于3DGS计算本质上是稀疏的洞察,即每次训练迭代只访问场景高斯体的一个小子集,因此只需将该子集加载到GPU内存,而将其余高斯体卸载到CPU内存 [8][11] - 评估表明,该实现可以在单个RTX 4090上渲染需要1.02亿个高斯体的大型场景,并达到顶尖水平的重建质量,与没有卸载的基线系统相比仅产生适度的性能开销 [8][9] 基于稀疏性的卸载策略 - 3DGS的计算过程具有高度稀疏性,在渲染时只有位于相机视锥体内的高斯点才对最终图像产生贡献,在大场景中单个视角访问的高斯点数量占比通常不到1% [12][14] - 团队利用这种稀疏性,通过视锥剔除逻辑提前识别每个视角所需的高斯点子集,并仅将这些必要的高斯点传输至GPU,从而显著降低内存占用与数据传输量 [12][15] - 在最大的数据集上,每个视角平均只访问了0.39%的高斯点,单个视角访问的高斯点数量上限为1.06% [23] 空间局部性优化 - 不同视角的稀疏模式虽不同但存在重叠,其交集的高斯点数与视角之间的空间位置和角度相似度密切相关 [16] - 团队利用这种空间局部性来优化CPU与GPU之间的数据传输,通过合理安排训练迭代顺序以最大化重叠访问并最小化总体通信量 [13][17] - 通过microbatch调度优化,提前计算每个微批次的稀疏模式并合理安排处理顺序,使得相邻批次之间的访问模式尽可能重叠,从而提高缓存命中率 [24] 系统设计与性能 - CLM的核心思路是通过将高斯参数和部分优化器计算卸载到CPU端来扩展有效的GPU显存容量,同时基于3DGS稀疏性和空间局部性观察结果最大限度减少通信开销 [20][25] - 系统采用流水线执行,使得通信与计算能够重叠进行,例如加载微批次i的视锥高斯时与微批次i-1的GPU反向计算重叠,传输微批次i的梯度时与微批次i+1的GPU前向计算重叠 [25][28] - CLM使得3DGS的可训练模型规模相比纯GPU训练基线提升了最高6.1倍,能够训练更大模型从而提升场景重建精度,并实现更低的通信与卸载开销 [27]
7DGS 炸场:一秒点燃动态世界!真实感实时渲染首次“七维全开”
自动驾驶之心· 2025-08-23 16:03
核心技术创新 - 提出7D高斯溅射(7DGS)框架,通过联合建模空间(3D)、时间(1D)和视角方向(3D)实现动态场景的高保真实时渲染 [3][10][17] - 核心突破在于统一表征7维高斯,自然捕捉几何、动态与视角相关外观的相互依赖性,例如移动镜面高光和时间变化的各向异性反射 [3][18][24] - 引入自适应高斯细化技术,通过轻量级神经网络动态调整高斯参数,提升对非刚性形变和复杂动态行为的建模精度 [32][35][36] 性能优势 - 在7DGS-PBR数据集上,PSNR指标最高提升7.36 dB(heart1场景:35.48 vs 27.30),同时保持401 FPS的实时渲染速度 [10][40][44] - 高斯点数显著减少,例如dust场景从357,744点优化至11,253点,压缩率达96.9% [40] - 在Technicolor野外数据集上,PSNR达到33.58,优于4DGS的33.25,且训练时间从358.9分钟缩短至112.1分钟 [40][43] 方法架构 - 采用条件切片机制,将7D高斯投影为兼容现有渲染流程的3D高斯,确保实时性能与保真度平衡 [23][26][27] - 通过球谐函数建模视角相关颜色,结合时间调制因子(f_temp)和方向调制因子(f_dir)动态调整不透明度 [8][28][30] - 优化流程继承3DGS的自适应致密化框架,通过克隆与分裂操作实现跨时空角度域的全面覆盖 [37][38] 应用场景 - 支持虚拟现实、增强现实和数字孪生应用,适用于动态心跳可视化、云层日照过渡等复杂场景 [2][10][41] - 在自动驾驶领域潜在应用于动态环境建模,技术栈涵盖BEV感知、多传感器融合和世界模型 [45][46]
SIGGRAPH 2025奖项出炉:上科大、厦大入选最佳论文
机器之心· 2025-06-12 03:23
SIGGRAPH 2025技术论文奖项总结 会议概况 - SIGGRAPH是全球图形学顶级会议,涵盖动画、模拟、成像、几何、建模、渲染、生成式AI等广泛技术领域[2] - 2025年会议将于8月10-14日在加拿大温哥华举行,接收306篇技术论文[3] 最佳论文奖 - 5篇获奖论文中,国内机构表现突出,上海科技大学、华中科技大学、厦门大学、清华大学等均有斩获[5] - **Shape Space Spectra**:提出形状-空间特征分析方法,通过变分原理计算连续参数化形状家族的特征函数,应用于声音合成、动力学模拟等领域[6][7][8] - **CAST**:基于单幅RGB图像的组件对齐3D场景重建方法,结合GPT模型分析物体空间关系,采用遮挡感知3D生成模型确保几何纹理对齐[12][13][14][15][16] - **TokenVerse**:利用预训练扩散模型实现多概念个性化,支持从多张图片提取复杂视觉元素组合生成[21][22] - **Transformer IMU Calibrator**:突破惯性运动捕捉系统静态假设限制,通过Transformer模型实现动态标定[26] 最佳论文荣誉提名 - 包括加州大学圣地亚哥分校与谷歌合作的论文,以及厦门大学、清华大学等机构联合研究[28][29] - 涉及神经场精确不连续性、蒙特卡洛渲染框架、矩形表面参数化等前沿方向[30] 时间检验奖 - 评选2013-2015年间对业界影响深远的4篇论文[32] - **Unified Particle Physics**:提出实时统一动力学框架,广泛应用于气体、液体、固体等多物理模拟[33] - **CNN视觉相似性**:首次将现代CNN引入图形学,推动跨类别视觉搜索技术发展[34] - **Embree**:开源CPU光线追踪框架,持续为研究社区提供高性能支持[39] 技术突破亮点 - CAST论文团队2024年已获两项SIGGRAPH最佳论文提名,显示持续创新能力[11] - 时间检验奖论文中,粒子物理框架和Embree系统至今仍被工业界广泛采用[33][39]