Visionary
搜索文档
挑战WorldLabs:Visionary,一个全面超越Marble底层渲染器的WebGPU渲染平台
机器之心· 2025-12-21 04:21
文章核心观点 - 世界模型(World Model)在Web端的可视化与交互面临底层渲染能力瓶颈,现有基于WebGL的方案(如SparkJS)在大场景、复杂场景及动态内容接入上存在性能天花板 [5][7][8] - 开源项目Visionary通过基于WebGPU与ONNX的技术架构,在浏览器中实现了真正的动态3DGS/4DGS实时渲染,旨在成为面向世界模型/空间智能的Web原生渲染基座,并在性能与画质上全面超越现有方案 [2][9][10][27] 技术背景与行业痛点 - 神经渲染路线中的3D Gaussian Splatting(3DGS)因其高效性,已成为构建世界模型的重要表示形式 [6] - 现有3DGS落地方案存在断层:桌面端/引擎方案(如SIBR、Unity)性能强但部署复杂;现有Web端方案(如SparkJS、SuperSplat)受限于WebGL管线,难以支持实时推理的动态3DGS、Neural Avatar及生成式模型 [7] Visionary解决方案与架构 - 项目定位为面向世界模型/空间智能的Web原生渲染基座,而非简单的3DGS查看器 [9][10][14] - 核心采用WebGPU原生架构,替代WebGL,将GPU计算与渲染真正带入浏览器 [10] - 设计核心是提出了Gaussian Generator Contract:通过ONNX驱动的统一接口,将每帧高斯生成/更新抽象为标准化的模型契约,使得渲染器不再受限于具体算法细节 [11][13] - 该设计首次在浏览器端实现了每帧动态生成与更新高斯、同一渲染器承载多种3DGS变体以及接入生成式后处理(如风格化、增强)的能力 [13] 性能与效果优势 - 在包含数百万高斯点的典型场景中,Visionary的渲染效率显著优于当前主流Web端查看器SparkJS [16][18] - Visionary将排序与预处理完全迁移至GPU(WebGPU),显著降低端到端延迟,而SparkJS的性能瓶颈主要集中在CPU排序阶段 [18] - 在渲染正确性与画质方面,Visionary采用逐帧GPU全局排序,避免了SparkJS在快速视角变化下出现的lazy sorting视觉伪影,在Mip-NeRF360等基准上画质指标持平或略有提升 [19][21] - 同时避免了如SuperSplat等方案中的逐物体排序混合错误,在多模型混合场景下仍能保证透明度渲染正确 [21] 应用场景与生态支持 - 为研究、创作与工业应用提供了统一平台:研究者可快速复现、对比与展示任意可导出为ONNX的3DGS变体;创作者可在浏览器中完成编辑、录制与渲染;工业界可应用于数字孪生、仿真、XR、具身智能等大规模实时场景 [22][24] - 项目已在GitHub完全开源,采用宽松协议,并已获得Firefox/Chrome WebGPU相关开发者的关注与反馈 [25] - 目前已原生支持MLP-based 3DGS (Scaffold-GS)、4D Gaussian Splatting、Neural Avatar (LHM、GauHuman、R³-Avatar等)、ONNX生成式后处理(风格化、增强),全部渲染流程均在浏览器端完成 [25] 未来发展方向 - 团队表示Visionary是迈向统一世界模型框架的第一步,未来将进一步探索物理交互增强(碰撞检测与Mesh管线融合)、物理感知建模(结合MPM等方法模拟真实动力学)、空间智能体(基于多模态大模型的空间推理与交互)以及下游应用桥接(支持具身AI的Sim-to-Real迁移) [26][28]