NeRF

搜索文档
三维重建综述:从多视角几何到 NeRF 与 3DGS 的演进
自动驾驶之心· 2025-09-22 23:34
三维重建技术演进综述 - 三维重建是计算机视觉与图形学的交叉核心,作为虚拟现实、增强现实、自动驾驶、数字孪生等前沿应用的数字底座 [5] - 以神经辐射场(NeRF)和三维高斯抛雪球(3DGS)为代表的新视角合成技术,使重建质量、速度、动态适应性同时跃升 [5] - 技术演进从传统多视角几何(SfM→MVS)到NeRF与3DGS,为数字孪生、智慧城市、元宇宙等领域提供技术演进全景图 [5] 应用需求驱动技术革新 - 城市级数字孪生需求公里级范围、厘米级精度、分钟级更新 [6] - 自动驾驶仿真需求动态交通流、实时语义、可编辑车道 [6] - AR/VR社交需求轻终端、大于90 FPS、照片级真实感 [6] - 工业数字工厂需求弱纹理、反光、复杂拓扑完整建模 [6] - 传统先几何后纹理管线无法满足新需求,NeRF与3DGS通过可微渲染统一学习几何-纹理-光照,实现从离线静态到实时动态的突破 [6] 传统多视角几何重建(SfM→MVS) - 理论基石包括对极几何x'^T F x = 0、三角测量X = argmin(∑‖π(P_i,X)−x_i‖^2)和束调整min ∑‖x−π(P,X)‖^2 + λ‖P−P_0‖^2 [9][10] - 成熟工具链包括COLMAP(学术最常用,CPU优化)、OpenMVG(模块化,适合算法研究)、Agisoft Metashape(商业级,支持无人机影像)和ContextCapture(Bentley城市级解决方案) [11] - 存在五大痛点:数据饥渴需大于70%航向重叠加60%旁向重叠、弱纹理空洞(玻璃、白墙、水面、天空)、光照敏感导致阴阳面色差和纹理接缝明显、动态失效导致行人车辆重影/鬼影、编辑困难改一棵树要重跑全流程 [13][15] NeRF隐式神经辐射场(2020-2024) - 基础框架将场景建模为连续5D函数F_Θ:(x,y,z,θ,φ)→(c,σ),通过体渲染积分得到像素颜色 [13][14] - 质量提升路线包括Mip-NeRF(锥体追踪+集成位置编码解决锯齿混叠,训练时间×2)、NeRF-W(外观嵌入+可变光照解决天气/曝光变化,推理需调latent)、NeRF++(反向球面背景+双层场景解决远景退化,参数量+30%)、NeRFLiX(退化模拟器+视角混合解决伪影噪声,需合成数据预训练)、BAD-NeRF(运动模糊物理模型解决模糊输入鲁棒,需已知模糊核)、UHDNeRF(隐式体+稀疏点云高频实现8K超高清,显存增加) [17] - 效率优化路线包括InstantNGP(多分辨率哈希编码实现5秒至1分钟训练时间、5 FPS渲染、1.2 GB显存)、TensoRF(CP分解+低秩近似实现10分钟训练、10 FPS、300 MB显存)、NSVF(稀疏体素八叉树实现30分钟训练、15 FPS、500 MB显存)、Zip-NeRF(抗锯齿网格采样实现20分钟训练、20 FPS、400 MB显存)、Lightning NeRF(点云先验初始化实现8分钟训练、10 FPS、600 MB显存) [18] - 稀疏视角合成(小于10张图)方法包括FreeNeRF(频率正则+遮挡正则实现DTU 3-view PSNR 19.92,零额外开销)、FlipNeRF(反射射线过滤实现PSNR 19.55,减少漂浮物)、MixNeRF(混合密度+深度估计实现PSNR 18.95,提升几何)、HG3-NeRF(几何-语义-光度分层实现PSNR 19.37,需语义标签) [20] - 动态场景(视频输入)方法包括Deformable-NeRF(变形场Ψ(x,t)实现D-NeRF PSNR 29.8,正则化扭曲)、NSFF(场景流+静态/动态分解实现PSNR 31.5,可解释运动)、DNeRF(时间编码γ(t)实现PSNR 29.6,无需额外mask)、NeRFPlayer(静态+变形+新区域实现PSNR 30.2,流式播放)、Tensor4D(4D张量分解实现PSNR 31.0,内存下降50%) [21] 3DGS三维高斯溅射(2023-2025) - 基础公式将场景表示为3D高斯集合G={μ_i,Σ_i,α_i,SH_i}_{i=1}^M,投影到图像平面后按深度排序做α-混合C=∑_{i∈N}c_iα'_i∏_{j=1}^{i-1}(1-α'_j) [22][23] - 渲染质量优化方法包括Mip-Splatting(3D/2D Mip滤波实现抗锯齿,LPIPS下降10%)、Scaffold-GS(锚点生长-剪枝实现内存下降79%,覆盖提升)、GaussianPro(渐进传播+深度一致实现低纹理PSNR提升1.7 dB)、GSDF(高斯+SDF双分支实现几何误差下降30%)、SuperGS(粗到细+梯度引导分裂实现4K超分实时) [25] - MipNeRF360对比显示3DGS的PSNR 27.21、SSIM 0.815、LPIPS 0.214、FPS 134、内存734 MB;GSDF的PSNR 29.38、SSIM 0.865、LPIPS 0.185;Scaffold-GS的PSNR 28.84、SSIM 0.848、LPIPS 0.220、FPS 102、内存156 MB;SuperGS的PSNR 29.44、SSIM 0.865、LPIPS 0.130、FPS 47、内存123 MB [26] - 效率再升级方法包括LightGaussian(蒸馏+量化+伪视角实现15倍压缩,200 FPS)、CompGS(K-means+游程编码实现存储下降80%)、EAGLES(轻量化编码实现显存下降70%)、SuGaR(表面网格提取实现编辑友好,Poisson重建)、Distwar(寄存器级并行实现GPU原子操作下降60%) [27][28] - 稀疏视角重建(小于10张图)方法包括FSGS(单目深度+邻域上采样实现200 FPS,需预训练DepthNet)、SparseGS(扩散模型补全实现实时360°,生成伪标签)、LM-Gaussian(大模型视觉先验实现迭代细化,视频扩散)、MCGS(多视角一致性修剪实现内存下降50%,渐进剪枝) [29] - 动态重建(视频)方法包括Deformable 3D-GS(变形场实现D-NeRF PSNR 39.51,时序正则)、4D-GS(神经体素+MLP实现PSNR 34.05,分解4D特征)、Gaussian-Flow(双域变形实现PSNR 34.27,显式运动向量)、DN-4DGS(去噪网络实现PSNR 25.59,时空聚合) [30] 三代技术横向对比 - 核心表征:SfM/MVS为点云+Mesh,NeRF为隐式σ(x)+c(x),3DGS为显式高斯集合 [31] - 几何精度:SfM/MVS★★★★☆,NeRF★★★☆☆,3DGS★★★☆☆ [31] - 照片真实感:SfM/MVS★★☆☆☆,NeRF★★★★★,3DGS★★★★☆ [31] - 训练时间:SfM/MVS为小时级,NeRF为小时至天级,3DGS为分钟级 [31] - 渲染FPS:SfM/MVS小于1,NeRF小于1,3DGS为50-300 [31] - 动态扩展:SfM/MVS不支持,NeRF需变形场,3DGS支持时序高斯 [31] - 编辑性:SfM/MVS极难,NeRF隐式不可见,3DGS支持移动/删除/增改 [31] - 硬件门槛:SfM/MVS只需CPU,NeRF需8个高端GPU,3DGS只需1个消费GPU [31] - 代表落地:SfM/MVS用于测绘、文保,NeRF用于影视、直播,3DGS用于AR/VR、自动驾驶 [32] 未来5年技术雷达 - 混合表征:NeRF+3DGS+SDF统一框架,光滑表面用SDF,高频细节用高斯,空洞用NeRF补全 [33] - 端侧实时:INT4量化+TensorRT/ONNX实现手机30 FPS重建 [33] - 生成式重建:Diffusion先验+3DGS实现单图/文本生成可驱动3D资产 [33] - 物理-语义联合:引入光照模型、重力、语义标签实现一键可编辑城市场景 [33] - 多模态融合:LiDAR深度、事件相机、IMU、Thermal同步实现SfM-free鲁棒重建 [33] - 三维重建将走向人人可用、处处实时的普适计算时代,让每部手机、每台车、每副AR眼镜都拥有实时数字化的瑞士军刀 [34]
肝了几个月,新的端到端闭环仿真系统终于用上了。
自动驾驶之心· 2025-07-03 12:41
技术突破与创新 - 神经场景表征发展中出现Block-NeRF等方法,但无法处理动态车辆,限制了自动驾驶环境仿真的应用 [2] - 浙大提出Street Gaussians技术,基于3DGS开发动态街道场景表示,解决训练成本高和渲染速度慢的问题,实现半小时内训练并以135 FPS速度渲染1066×1600分辨率图像 [2] - 动态场景表示为静态背景和移动车辆的点云组合,每个点分配3D高斯参数(位置、不透明度、协方差)和球面谐波模型表示外观 [3][4] - 背景模型使用世界坐标系点云,每个点包含3D高斯参数(协方差矩阵、位置向量)、不透明度、球面谐波系数和3D语义概率 [8] - 物体模型引入可学习跟踪车辆姿态,局部坐标系定义的位置和旋转通过跟踪姿势转换到世界坐标系,并采用4D球谐函数解决移动车辆外观建模的存储问题 [11][12] - 使用LiDAR点云初始化场景表示,对稀疏区域结合SfM点云补充,物体模型初始化采用3D边界框内聚合点或随机采样 [17] 算法优化与效果 - 4D球谐函数有效消除动态场景渲染中的伪影,提升外观建模准确性 [16] - 静态场景重建通过体素下采样和可见性过滤优化点云初始化,动态场景重建利用可学习姿态参数解决跟踪噪声问题 [17][11] - 自动驾驶场景重建实现动静态物体分解,支持场景编辑和闭环仿真应用 [43] 行业应用与课程 - 3DGS技术已衍生多个子方向(4D GS、场景编辑等),在自动驾驶仿真闭环中具有重要应用价值 [23][43] - 业内推出首门3DGS全栈实战课程,覆盖视觉重建基础、静态/动态场景重建、自动驾驶场景优化等模块,结合代码实战与论文带读 [26][33][35][37][39][41][43][45][47] - 课程由头部自动驾驶公司算法专家设计,目标培养学员掌握3DGS核心理论、前沿算法及实际应用能力 [50][53][54]
4万多名作者挤破头,CVPR 2025官方揭秘三大爆款主题, 你卷对方向了吗?
机器之心· 2025-05-28 03:02
计算机视觉领域热门方向 - CVPR 2025基于全球4万多名作者的13008份投稿统计出三大热门方向 投稿数量同比增长13% 最终接收2878篇论文 接收率22.1% [3] - 研究群体呈现指数级增长趋势 AI领域重要性提升带动相关学位攻读人数增加 [3] 多视角与传感器3D技术 - 该方向投稿量激增 研究重点从单幅图像2D渲染转向复杂3D评估 2020年NeRF技术突破推动领域发展 [4][5] - 高斯泼溅(Gaussian splatting)技术进一步促进计算机视觉与图形学融合 神经渲染研究显著提升3D相关论文数量 [5] 图像与视频合成 - 成为CVPR 2025最大论文类别之一 多模态商业聊天机器人已实现图像/视频生成能力 正朝交互式世界生成演进 [6] - 会议展示的合成方法为生成完整虚拟环境奠定技术基础 [6] 多模态学习 - 视觉、语言和推理合并为投稿量最大类别之一 可能预示新研究趋势 [7][8] - CVPR坚持学术公平原则 每篇论文评审标准独立于作者机构背景 维护领域生态平衡 [8] 行业动态 - CVPR 2025会议即将召开 投稿竞争加剧反映AI研究热度持续攀升 [8] - 机器之心将同步举办论文分享会 提供学术交流平台 [8]
虞晶怡教授:大模型的潜力在空间智能,但我们对此还远没有共识|Al&Society百人百问
腾讯研究院· 2025-05-09 08:20
大模型技术发展 - 当前技术发展尚未遇到极限 跨模态整合仍有巨大潜力未被挖掘 如DALL-E 3结合语言模型与扩散模型已实现惊人图像生成效果 [10] - GPT-4o采用语言模型的Next-Token-Prediction方式 展示出图像编辑和用户需求理解的突破性能力 [10] - Scaling law在多模态背景下讨论为时尚早 当前重点在于深度挖掘语言模型能力并探索与其他模态结合的上限 [11] 空间智能演进 - 发展历程从数字孪生/仿真平台起步 逐步扩展至VR/元宇宙 光场技术提升沉浸体验质量 [12] - 神经网络技术如NeRF推动空间智能从数字复刻转向智能理解 生成式AI进一步实现空间创造能力 [12] - 文生3D技术突破传统建模限制 通过单张图片实时生成三维结构 CLAY项目获SIGGRAPH最佳论文提名 [14] 关键技术瓶颈 - 3D场景数据严重不足 真实世界复杂物体交互数据尤其匮乏 如家庭环境物品分布变化案例 [18] - 三维表达方式未统一 NeRF/SDF/Mesh参数化等方案各有优劣 影响数据利用效率 [26] - 物理规则建模是核心难点 需解决物体间动态关系模拟 如堆叠物体操作中的连锁反应 [20] 行业应用前景 - 短期聚焦影视/游戏内容生成 大幅降低元宇宙构建成本 中长期成为具身智能基础模型 [42] - 低空经济是潜力场景 无人机配送需厘米级空间精度 相关研究年底将展示demo [45] - 养老机器人需突破翻身/洗澡等刚需功能 15年内有望成熟 需解决负重与安全平衡 [49] 研究方法论创新 - 引入"行动者网络理论" 认为三维物体具有潜在行动力 其变化会显著影响环境 [16] - 整体性方法强调感知-认知-行为协同 如NLOS成像技术可推断物体背面几何形态 [36][37] - 合成数据与真实数据互补 通过跨模态学习缓解3D数据不足 如文本描述辅助推断物体关系 [19] 教育范式变革 - 编程课程将提前至高中阶段 学生接受度与能力提升显著 AI课程将成为通识教育 [52] - 教学模式转向短课程快迭代 美国quarter system显示课时压缩有助于内容更新 [8][53] - 教师需对接工业界痛点 传统教材被教参取代 持续学习能力成为核心要求 [53]