Workflow
NeRF
icon
搜索文档
工业界大佬带队!三个月搞定3DGS理论与实战
自动驾驶之心· 2025-12-09 19:00
3DGS技术发展与应用 - 新视角合成的核心目标是通过图像或视频构建可被计算机处理的3D模型,催生了3D建模、虚拟现实、自动驾驶闭环仿真等大量应用 [2] - 早期算法如SfM、MVS受限颇多,2020年NeRF打破僵局但仍面临计算效率和可编辑性差的问题,2023年3DGS一经问世便迅速火爆 [2] - 3DGS技术迭代速度远超想象,已发展出静态重建3DGS、动态重建4DGS、表面重建2DGS,并进一步催生了feed-forward 3DGS以解决per-scene optimization方法不便使用的问题 [4] - 目前3DGS在学术界和工业界都很受欢迎,但入门需要吃透点云处理、深度学习等理论,并掌握实时渲染、代码实战 [4] 课程核心内容与结构 - 课程包含2DGS/3DGS/4DGS的细致讲解,并扩展当下3DGS重要的几个研究课题,最后讲解feed-forward 3DGS,旨在全面吃透3DGS技术栈 [6] - 课程大纲共六章,从背景知识、原理算法到自动驾驶应用、研究方向及前沿feed-forward方法,最后安排答疑讨论 [8][10][11][12][13][14][15] - 课程进度安排为离线视频教学,自12月1日开课,预计两个半月结课,分章节逐步解锁并配合VIP群内答疑及三次线上答疑 [17] 课程具体章节要点 - **第一章:3DGS背景知识**:从计算机图形学基础讲起,涵盖三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染等技术概念及其与3DGS的联系,并介绍COLMAP、Gsplat等开发工具,设计基于3D Real Car训练模型的小作业 [10] - **第二章:3DGS原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架 [11] - **第三章:自动驾驶3DGS**:聚焦自动驾驶仿真重建,讲解浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用学术界和工业界使用最多的DriveStudio [12] - **第四章:3DGS重要研究方向**:聚焦COLMAP扩展、深度估计及Relighting等研究方向,并分享这些方向如何服务工业界及学术探索的未来走势 [13] - **第五章:Feed-Forward 3DGS**:梳理feed-forward 3DGS的发展历程和算法原理,讲解最新的AnySplat和WorldSplat算法工作 [14] - **第六章:答疑讨论**:通过线上交流形式,组织讨论3DGS岗位需求、行业痛点及开放性问题 [15] 课程面向人群与收获 - 面向人群需自备GPU(推荐算力在4090及以上),并具备一定的计算机图形学基础、视觉重建/NeRF/3DGS技术了解、概率论与线性代数基础、Python和PyTorch语言基础 [19] - 学后收获包括掌握3DGS完善的理论知识及相关技术栈、掌握3DGS算法开发框架并能训练开源模型、与学术界及工业界同行持续交流,对实习、校招、社招均能受益 [19]
3DGS论文原理与论文源码学习,尽量无痛版
自动驾驶之心· 2025-12-06 03:04
3D高斯泼溅技术趋势与课程内容 - 3D高斯泼溅技术正逐步取代神经辐射场技术,因其技术实现相对更容易[2] - 该技术已获得广泛应用,尤其是前馈式3D高斯泼溅技术近期备受关注[3] 课程结构与学习路径 - 课程共分六章,从背景知识到前沿研究方向系统展开[6][7][8][9][10][11] - 课程采用离线视频教学,配合VIP群答疑与三次线上交流,学习周期预计两个半月[13] - 课程内容设计耗时两个月,旨在提供从理论到实战的完整学习路线图[3] 核心技术模块详解 - **第一章**:涵盖计算机图形学基础,包括三维空间表达、渲染管线及光线追踪,并介绍COLMAP、Gsplat等主流开发工具,附带基于3D Real Car的实践作业[6] - **第二章**:深入讲解3D高斯泼溅原理、核心伪代码及动态重建、表面重建等算法,实战部分使用英伟达开源的3DGRUT框架[7] - **第三章**:聚焦自动驾驶仿真重建,解析Street Gaussian、OmniRe及Hierarchy UGP等关键工作,实战选用DriveStudio框架[8] - **第四章**:探讨COLMAP扩展、深度估计及重照明等重要研究方向,并分析其工业应用与学术前景[9] - **第五章**:梳理前馈式3D高斯泼溅的发展历程与原理,讲解AnySplat和WorldSplat等最新算法[10] 讲师背景与课程特色 - 讲师Chris拥有QS前20大学硕士学位,现任某Tier1厂商算法专家,在端到端仿真、多模态大模型及三维重建领域具备丰富经验[3] - 课程提供与学术界及工业界同行持续交流的机会,旨在帮助学员掌握完整技术栈并提升就业竞争力[15] - 课程设有早鸟优惠,名额仅限20名[3][16] 目标学员与先决条件 - 课程面向希望入门或深化3D高斯泼溅技术的学习者,对实习、校招及社招均有助益[15] - 学员需自备GPU,推荐算力在RTX 4090及以上[15] - 学员需具备计算机图形学基础、对视觉重建等相关技术有一定了解,并掌握Python与PyTorch编程[15]
做了一份3DGS的学习路线图,面向初学者
自动驾驶之心· 2025-11-22 02:01
文章核心观点 - 3D高斯泼溅(3DGS)技术,特别是前馈式3DGS(Feed-Forward GS),正成为自动驾驶、医疗、虚拟现实和游戏等领域的新兴重要技术栈 [2] - 场景重建或世界模型是行业急需攻克的关键场景,其中自动驾驶的业内闭环是核心痛点 [4] - 为满足行业需求,推出了《3DGS理论与算法实战教程》,旨在系统性地讲解从原理到实战的知识,帮助学习者全面掌握3DGS技术栈 [6] 技术应用与行业需求 - 3DGS技术已在多个领域获得广泛应用,主流技术方向包括2DGS、3DGS、4DGS和前馈GS [2] - 自动驾驶行业对场景重建和世界模型有迫切需求,业内闭环是真正的技术痛点 [4] - 传统三维重建领域也存在技术升级的刚需 [4] 课程内容与结构 - 课程核心算法涵盖静态重建3DGS、动态重建4DGS、表面重建2DGS、前馈式3DGS以及量产问题讨论 [6] - 课程设计思路是从计算机图形学基础讲起,逐步深入到3DGS原理、自动驾驶应用及前沿研究方向 [10][11][12][13][14] - 课程包含六个章节:3DGS背景知识、原理算法、自动驾驶应用、研究方向、前馈式3DGS及答疑讨论 [10][11][12][13][14][15] - 课程采用离线视频教学,配合VIP群内答疑和三次线上答疑,学习周期预计两个半月 [17] 课程具体章节重点 - 第一章重点讲解计算机图形学基础,包括三维空间表达、渲染管线及3DGS开发工具如SuperSplat、COLMAP和Gsplat [10] - 第二章深入讲解3DGS原理、核心伪代码及动态重建、表面重建等算法,实战部分使用英伟达开源3DGRUT框架 [11] - 第三章聚焦自动驾驶仿真重建,重点分析Street Gaussian、OmniRe和Hierarchy UGP三篇工作,实战使用DriveStudio [12] - 第四章探讨3DGS重要研究方向,包括COLMAP扩展、深度估计及Relighting,并分析其工业界应用与学术前景 [13] - 第五章梳理前馈式3DGS的发展历程与原理,讲解AnySplat和WorldSplat等最新算法 [14] 目标人群与学习收获 - 课程面向具备一定计算机图形学基础、了解视觉重建技术、并拥有Python和PyTorch基础的学习者 [19] - 学习者需自备GPU,推荐算力在RTX 4090及以上 [19] - 学后收获包括掌握3DGS理论知识和技术栈、熟悉算法开发框架、并能与学术界及工业界同行持续交流 [19]
3DGS重建!gsplat 库源码解析
自动驾驶之心· 2025-09-23 23:32
3D高斯泼溅技术及gsplat库 - 3D高斯泼溅是一种新兴的3D场景表示与渲染技术,与传统的深度学习模型和框架有显著区别,它更侧重于计算机图形学领域,涉及坐标系转换和激光雷达点云等技术[4] - 在自动驾驶和计算机视觉领域,3D高斯泼溅技术正被探索与感知系统及端到端模型进行结合,但其与大语言模型和自然语言处理领域基本没有关联[4] - 对于希望入门该领域的研究者,开源库gsplat被推荐为比官方Gaussian-splatting库更优的选择,因其文档和维护相对更好[5] gsplat库的技术特性与优化 - gsplat库对原始的3D高斯泼溅官方实现进行了多项优化,提供了更完善的工具链[5] - 该库支持超广角镜头畸变和卷帘快门相机模型,这使其更适用于如自动驾驶等复杂真实场景[12] - 库内提供了高效的高斯球参数压缩功能,能够将1M个高斯球的参数量从236MB压缩至16.5MB,仅造成0.5dB的峰值信噪比损失[13] - 压缩技术结合了量化、排序、K-means聚类以及PNG图像编码等多种方法[14] 3D高斯泼溅的核心算法流程 - 3D高斯泼溅使用位置、协方差矩阵、颜色和不透明度等参数来定义每个高斯球,其中协方差矩阵可通过缩放矩阵和由四元数表示的旋转矩阵分解得到[21] - 训练过程包含自适应密度控制,高斯球的数量会动态变化,通过复制、分裂和修剪等策略进行更新[23] - 复制操作的触发条件是图像平面梯度高且高斯球尺度小,适用于需要保留细节的区域[28] - 分裂操作的触发条件是图像平面梯度高且高斯球尺度大,适用于用多个小高斯拟合复杂几何结构[28] - 修剪操作的触发条件是高斯球的不透明度较低,定期重置策略则用于防止不透明度过早收敛[28] gsplat库的渲染与训练实现 - 渲染管线核心步骤包括:将3D高斯投影至2D图像平面、计算球谐函数着色、进行瓦片相交检测,最终光栅化到像素[42][45][46][53] - 训练循环包含数据准备、前向渲染、损失计算、反向传播、优化器更新以及策略后处理(执行高斯球的分裂与修剪)等标准步骤[33][35][37] - 支持多GPU分布式训练,采用类似模型并行的方式将高斯球参数切分到不同GPU,并在渲染前通过All-to-All通信交换数据,实现计算负载的并行化[65][66][71] 行业影响与未来展望 - 以OpenAI的Sora为代表的视频生成模型若持续发展,可能对未来计算机图形学领域产生深远影响,甚至成为该学科的基础技术之一[6][7] - 从业者期待“世界模型”类技术能在视频生成和场景重建等领域得到更广泛应用,即使其效果仅达到大语言模型影响力的四分之一,也将为算法和基础设施领域的从业者带来新的机会[9]
自动驾驶之心技术交流群来啦!
自动驾驶之心· 2025-07-29 07:53
自动驾驶技术交流平台 - 公司是国内领先的自动驾驶技术交流平台 专注于自动驾驶产业 学术与职场成长等领域 [1] - 平台提供技术交流群 涵盖大模型 端到端 VLA BEV感知 多模态感知等前沿技术方向 [1] - 交流范围包括感知 规划控制 仿真测试 硬件配置等自动驾驶全产业链环节 [1] - 平台面向企业 高校研究人员开放 需提供公司/学校 昵称和研究方向信息加入 [1]
一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
机器之心· 2025-06-10 08:41
3D场景生成技术综述 核心观点 - 南洋理工大学S-Lab系统梳理300+篇论文,将3D场景生成方法划分为四大技术范式:程序化生成、基于神经网络的3D表示生成、图像驱动生成、视频驱动生成 [2] - 领域自2021年起进入爆发期,主要驱动力为扩散模型、NeRF、3D Gaussians等新技术涌现 [4] - 当前技术面临生成能力不均衡、3D表征缺陷、数据瓶颈、评估标准缺失四大挑战 [16] - 未来发展方向聚焦高保真生成、物理约束引入、交互式场景、感知-生成一体化四大方向 [12][18] 技术路线分类 程序化生成 - 通过预定义规则/LLM先验自动构建复杂环境(如城市、地形),具备空间一致性优势 [8] - 细分方法包括基于规则生成(地形)、约束优化生成(室内)、LLM辅助生成(布局控制) [8] 神经网络3D表示生成 - 直接生成场景图/参数或3D表征(点云/NeRF/3D高斯),具备强三维理解能力 [8] 图像驱动生成 - 基于2D图像生成模型重建3D结构,包括整体生成(全景图)和迭代生成(图像序列) [9][14] 视频驱动生成 - 融合时空一致性,分为一阶段(端到端)和两阶段(时空分离控制)方法 [9][15] 性能评估维度 - 七大关键指标:真实感、多样性、视角一致性、语义一致性、效率、可控性、物理真实性 [7] - 不同方法在可控性/真实性/效率/一致性之间存在显著权衡关系 [7] 下游应用领域 - 覆盖3D场景编辑、人-场景交互、具身智能、机器人、自动驾驶等关键场景 [2] 未来技术突破方向 - 高保真生成需协调几何/纹理/光照/多视角一致性,提升材质建模与细节捕捉能力 [12] - 物理约束引入需结合可微分物理模拟器,保障物体移动/摆放符合真实规律 [18] - 交互式场景需实现动态响应能力,理解物体可用性/因果关系/多智能体逻辑 [18] - 感知-生成一体化需构建统一架构,双向增强场景理解与生成准确性 [18]