3D Gaussian Splatting (3DGS)
搜索文档
挑战WorldLabs:Visionary,一个全面超越Marble底层渲染器的WebGPU渲染平台
机器之心· 2025-12-21 04:21
文章核心观点 - 世界模型(World Model)在Web端的可视化与交互面临底层渲染能力瓶颈,现有基于WebGL的方案(如SparkJS)在大场景、复杂场景及动态内容接入上存在性能天花板 [5][7][8] - 开源项目Visionary通过基于WebGPU与ONNX的技术架构,在浏览器中实现了真正的动态3DGS/4DGS实时渲染,旨在成为面向世界模型/空间智能的Web原生渲染基座,并在性能与画质上全面超越现有方案 [2][9][10][27] 技术背景与行业痛点 - 神经渲染路线中的3D Gaussian Splatting(3DGS)因其高效性,已成为构建世界模型的重要表示形式 [6] - 现有3DGS落地方案存在断层:桌面端/引擎方案(如SIBR、Unity)性能强但部署复杂;现有Web端方案(如SparkJS、SuperSplat)受限于WebGL管线,难以支持实时推理的动态3DGS、Neural Avatar及生成式模型 [7] Visionary解决方案与架构 - 项目定位为面向世界模型/空间智能的Web原生渲染基座,而非简单的3DGS查看器 [9][10][14] - 核心采用WebGPU原生架构,替代WebGL,将GPU计算与渲染真正带入浏览器 [10] - 设计核心是提出了Gaussian Generator Contract:通过ONNX驱动的统一接口,将每帧高斯生成/更新抽象为标准化的模型契约,使得渲染器不再受限于具体算法细节 [11][13] - 该设计首次在浏览器端实现了每帧动态生成与更新高斯、同一渲染器承载多种3DGS变体以及接入生成式后处理(如风格化、增强)的能力 [13] 性能与效果优势 - 在包含数百万高斯点的典型场景中,Visionary的渲染效率显著优于当前主流Web端查看器SparkJS [16][18] - Visionary将排序与预处理完全迁移至GPU(WebGPU),显著降低端到端延迟,而SparkJS的性能瓶颈主要集中在CPU排序阶段 [18] - 在渲染正确性与画质方面,Visionary采用逐帧GPU全局排序,避免了SparkJS在快速视角变化下出现的lazy sorting视觉伪影,在Mip-NeRF360等基准上画质指标持平或略有提升 [19][21] - 同时避免了如SuperSplat等方案中的逐物体排序混合错误,在多模型混合场景下仍能保证透明度渲染正确 [21] 应用场景与生态支持 - 为研究、创作与工业应用提供了统一平台:研究者可快速复现、对比与展示任意可导出为ONNX的3DGS变体;创作者可在浏览器中完成编辑、录制与渲染;工业界可应用于数字孪生、仿真、XR、具身智能等大规模实时场景 [22][24] - 项目已在GitHub完全开源,采用宽松协议,并已获得Firefox/Chrome WebGPU相关开发者的关注与反馈 [25] - 目前已原生支持MLP-based 3DGS (Scaffold-GS)、4D Gaussian Splatting、Neural Avatar (LHM、GauHuman、R³-Avatar等)、ONNX生成式后处理(风格化、增强),全部渲染流程均在浏览器端完成 [25] 未来发展方向 - 团队表示Visionary是迈向统一世界模型框架的第一步,未来将进一步探索物理交互增强(碰撞检测与Mesh管线融合)、物理感知建模(结合MPM等方法模拟真实动力学)、空间智能体(基于多模态大模型的空间推理与交互)以及下游应用桥接(支持具身AI的Sim-to-Real迁移) [26][28]
将3DGS嵌入Diffusion - 高速高分辨3D生成框架(ICCV'25)
自动驾驶之心· 2025-11-01 16:04
核心技术:DiffusionGS 算法框架 - 提出一种名为 DiffusionGS 的全新单阶段 3D 生成框架,将 3D Gaussian Splatting 嵌入到 pixel-level 的 Diffusion 模型中,以保持生成结果的 3D 视角一致性 [2] - 该框架在 Diffusion 的每一个时间步都预测一个 3D Gaussian 点云,能够同时用于物体中心化生成和大尺度场景级生成 [2] - 模型在 256x256 和 512x512 分辨率下的生成速度分别为 6 秒和 24 秒,比 Hunyuan-v2.5 快 7.5 倍,参数量仅为 1 个多 G,训练需 16-32 张 A100 显卡 [16] 技术优势与创新点 - 设计了场景-物体混合训练策略,能够将来自不同数据集的物体和场景数据放在一起训练,学习更泛化的三维先验 [32] - 提出新的相机位姿控制条件方法 Reference-Point Plucker Coordinate,通过引入参考点信息增强模型的空间感知能力 [32][37] - 方法在单视角场景重建时无需借助单目深度估计器,本身具备深度感知能力 [32] 性能表现与实验结果 - 在物体级生成任务上,比当前最优方法在 PSNR 指标上高 2.20 dB,FID 分数优 23.25 [32] - 定量实验显示,该方法在不借助 2D 图像扩散先验和单目深度估计器的情况下,达到了更好的测试指标和更快的生成速度 [40] - 视觉对比结果表明,该方法生成的新视角图像更清晰,三维一致性更好,伪影和模糊更少 [44] 应用前景与开源情况 - 该技术可应用于 AR/VR、电影制作、机器人、动画、游戏等领域 [20] - 目前训练、测试、评估代码已经开源,并集成了一行 pipeline 直接运行的代码,未来将包括高斯点云转 mesh 功能 [5][7] - 项目提供了代码、模型、论文链接及项目主页,包含视频和点云交互式渲染结果 [7][8]
ICCV 2025自动驾驶场景重建工作汇总!这个方向大有可为~
自动驾驶之心· 2025-07-29 00:52
自动驾驶场景重建研究进展 - ICCV2025已放出多篇自动驾驶闭环仿真相关论文 国内外顶尖院校如清华大学 南开大学 复旦大学 浙江大学 伊利诺伊大学厄巴纳-香槟分校等团队均在发力该领域 [2] - 当前研究聚焦动态目标与静态场景联合重建 需兼顾LiDAR与视觉数据融合 实现色彩与几何信息的精准建模 [2] - 代表性工作包括: - 清华与UIUC合作的InvRGB+L 通过统一颜色与LiDAR反射率建模实现复杂场景逆向渲染 [5] - 南开与UIUC的AD-GS 采用B样条高斯泼溅技术实现自监督自动驾驶场景重建 [6] - 复旦的BézierGS 通过贝塞尔曲线高斯泼溅完成动态城市场景重建 [10] - 清华 浙大与菜鸟网络的RGE-GS 利用扩散先验实现奖励引导的驾驶场景扩展重建 [11] 3DGS技术发展与课程体系 - 3D高斯泼溅(3DGS)技术已衍生出2DGS/3DGS/4DGS/混合GS等多个子方向 涉及新视角泛化 场景编辑 自动驾驶仿真闭环等应用 [12] - 业内首门3DGS全栈实战课程覆盖八大模块: - 视觉重建算法基础(NeRF与3DGS技术起源) [19] - 3DGS核心技术解析(数据算法 可视化 评测体系) [21] - 静态场景重建(CVPR2024最佳学生论文Mip-Splatting实战) [23] - 动态场景重建(CVPR2024满分论文Deformable GS应用) [25] - 场景表面重建(SOTA方案PGSR技术剖析) [27] - 自动驾驶混合重建(Street Gaussians动静态分解策略) [29] - gsplat框架实战(工业级驾驶场景重建算法开发) [31] - 学术与职业发展(3DGS研究趋势与工业落地现状) [33] 技术团队与资源 - 课程由头部自动驾驶公司算法专家Jeff主导 其在SIGGRAPH CVPR等顶会发表8篇论文 专注NeRF/3DGS算法研究 [36] - 配套资源包括《NeRF与自动驾驶论文带读课程》及gsplat开源框架支持 需学员自备12G以上显存GPU [15][38] - 目标学员涵盖高校研究人员 企业技术骨干及转行人员 需具备Python/PyTorch基础与三维重建入门知识 [37][40]
多样化大规模数据集!SceneSplat++:首个基于3DGS的综合基准~
自动驾驶之心· 2025-06-20 14:06
三维高斯溅射技术发展 - 三维高斯溅射(3DGS)成为最理想的三维表示方法,因其能联合编码场景的几何、外观和理解属性[2] - 视觉-语言推理是三维场景理解最具前景的方向,将视觉/几何属性与语言概念连接[2] - 现有方法分为三类:基于梯度的单场景优化、免优化的特征聚合、泛化方法[3] 评估基准创新 - 提出SceneSplat-Bench基准,包含1060个场景和325个语义类别,首次在三维空间评估性能[3] - 现有评估存在三大局限:样本量少(仅9-21个场景)、依赖训练视点、二维评估为主[4] - 基准测试显示泛化方法SceneSplat在f-mIoU指标上最高达0.354(ScanNet20)和0.338(Matterport3D)[24] 数据集突破 - 发布SceneSplat-49K数据集,包含46K个3DGS场景,总高斯数达29.24B,覆盖室内外环境[9][10] - 数据集平均质量达27.8dB PSNR和0.90 SSIM,几何误差仅0.061米,存储量8.36TB[10][12] - 包含12K个带视觉语言嵌入的场景,采用动态加权机制融合全局/局部特征[19] 技术性能比较 - 泛化方法SceneSplat运行时仅0.24分钟/场景,显著优于优化方法(76-621分钟)[5][24] - 免优化方法在效率(4-5.6分钟)和准确率上均优于优化方法,如Gradient-Weighted 3DGS在ScanNet20达0.418 f-mIoU[5][24] - 数据规模扩大使ScanNet++性能提升69%(f-mIoU从0.168到0.284)[28] 跨领域应用 - 室内训练模型可迁移至室外场景,零样本性能达0.263 mIoU,但特定领域数据仍关键[29] - 城市尺度数据集HoliCity包含6,300个伦敦场景,覆盖20平方公里,支持室外评估[17][22] - 合成数据Aria ASE贡献25K程序化室内场景,采用鱼眼图像校正技术[16]