Workflow
3DGS
icon
搜索文档
世界模型和数字孪生的本质是什么?怎么赋能自动驾驶?
自动驾驶之心· 2025-12-29 01:07
世界模型与数字孪生概述 - 自动驾驶领域的研究离不开世界模型和数字孪生,核心目标是为感知模型构建虚拟训练环境并缩小其与真实世界的差距[5] - 世界模型的本质目的是理解世界动态并预测未来场景,所有研究路径均以此为核心共识[7] - 数字孪生的作用是在虚拟世界中定义自动驾驶车群的各个环节与要素,通过自由切换时空来低成本、高效率地研究关键技术,从而驱动现实世界技术的发展与落地[19] 世界模型的定义与发展 - 世界模型存在概念泛化问题,当前定义的核心是以视频为底座的“时空认知”,需要大量视频数据,游戏是重要的训练数据来源[7] - 研究分为两大分支:“内部表示”学派用潜在变量建模环境以辅助决策,“未来预测”学派生成真实视频并转向具身交互[7] - 具身环境的世界模型正从单纯模拟视觉动态,转向构建包含空间结构和物理交互的沉浸式环境,以为智能体提供全面学习平台[8] - 世界模型的发展历程包括:心理学起源(1971)、Ha等人首次系统构建(2018)、LeCun的JEPA框架(2022)、LLMs的隐性世界知识(2023)以及OpenAI的Sora实现显性模拟(2024)[10] 世界模型的核心要求与应用方向 - 世界模型需具备物理一致性、多尺度时空建模(从毫秒到分钟,从厘米到公里)以及因果推理能力[11] - 三大核心应用方向包括:作为基础模型的预训练方式、用于仿真和数据生成以补充真实数据不足、以及进行端侧推理以实现实时环境变化预测[11] - 在自动驾驶中,世界模型需要实时感知路况并准确预测其演变;在机器人技术中,则对导航、物体检测和任务规划等任务至关重要[11] 世界模型的技术路径与场景构建 - 3D高斯可能是最有前景的表征方式,但需解决核函数优化问题;神经辐射场(NeRF)与动态建模的组合也值得探索;分层建模可为不同目的服务[12] - 室内环境构建从纯视觉发展到多模态、社交交互及LLM驱动指令生成;室外环境构建早期通过检索3D资产,突破性进展包括使用3D生成模型构建可定制城市(如UrbanWorld)和程序生成的沙盒环境(如MineDOJO)[12] - 动态环境构建实现革命性转变,从静态预定义环境转向生成式模型实时动态模拟,代表工作有UniSim、Pandora和Streetscapes[12] 自动驾驶中世界模型的应用形态 - **学习隐式表示**:通过感知数据在潜在空间构建世界状态的抽象表征,将多模态输入转化为几何/语义空间以预测交通参与者未来轨迹与行为,技术演进从PointNet、CNN到Transformer多摄像头BEV融合及多模态LLM应用[16] - **世界模拟器**:直接生成车辆感知数据(如视频、3D占据网格)以模拟未来世界状态,传统几何空间模拟存在信息丢失、计算昂贵等局限,视频生成方案(如扩散模型GAIA-1/DriveDreamer)能直接生成逼真相机数据并支持文本控制[16] - 数据的表示形态包括图像/视频(如GAIA-1生成多视角驾驶视频)和BEV鸟瞰图(如BEVWorld统一感知-预测-规划)[16] 自动驾驶中世界模型的具体应用与车企落地 - 主要优势在于生成罕见场景(Corner Case),以降低实车路测成本,案例如MagicDrive3D实现可控3D场景生成,DriveDreamer-2用LLM增强多样性[17] - 支持端到端驾驶,如BEVWorld通过统一潜在空间整合感知、预测和规划,实现端到端优化[17] - 交通场景模拟可在几何空间、视频空间(基于扩散的视频生成模型)和3D空间(如OccWorld预测3D占据网格)中进行[17] - 车企落地情况:蔚来有NWM世界模型提供仿真闭环训练环境;小米有ORION框架集成仿真工具链;Wayve有GAIA-1生成式世界模型支持多模态条件[17] 数字孪生的层次与相关技术 - 数字孪生体现在多个层次:物理世界建模/数字化(将现实世界映射到虚拟空间)、模型迭代(利用虚拟环境数据训练感知模型)以及系统迭代(在仿真软件中研究系统并找出解决方案)[20][21] - 相关技术包括:3D占用网格(如OccSora)、点云预测(如Copilot4D预测雷达点云变化)、混合表示(如MaskGWM结合视频掩码重建)、利用LLM进行场景理解(如TOKEN将交通场景标记为对象级知识)以及运动预测(如Trajectron++预测多智能体轨迹)[22] 倾斜摄影三维重建流程 - 流程包括:图像预处理(畸变校正、曝光均衡)、空中三角测量(解算图像精确内外参)、密集匹配(生成高密度点云)、网格构建(生成三维几何网格模型)、纹理映射(生成纹理逼真的三维模型)以及模型优化与输出[23][24][25][26][27] MVSNET技术流程 - 流程包括:输入准备(接收多幅图像及相机参数)、特征提取(用CNN提取像素级特征)、代价体构建(计算特征相似度构建三维代价体)、代价体正则化(用3D卷积网络滤波)、深度图回归(计算深度概率分布生成深度图)以及后处理(优化深度图)[30][31][32][33] NeRF技术原理与演进 - NeRF用一个连续的体积函数表示3D场景,输入3D坐标和视角方向,通过训练神经网络预测点的颜色和密度,并使用体积渲染公式合成新视角图像[34][36] - 原始NeRF训练慢、渲染慢、内存占用大,后续改进包括:Instant-NGP+使用哈希编码将训练速度提升100倍;Mip-NeRF+解决抗锯齿问题;Block-NeRF+支持城市级大场景;D-NeRF+支持动态场景[37] - 与MVSNET区别:MVSNET是显式几何流水线,先生成点云/网格再渲染;NeRF是隐式场方法,直接学习连续函数并可通过体渲染生成任意视角图像[39][40][41] - 在跨场景泛化方面的改进工作包括:代价体编码(如MVSNeRF)、点云特征外挂(如Point-NeRF)、使用注意力机制聚合多视图(如IBRNet)、引入2D大模型先验(如DreamFusion)以及元学习/预训练流程(如Meta-NeRF)[44][45][46][48][50] 3D高斯溅射(3DGS)技术原理 - 核心思想是将三维场景显式地建模为数百万个可学习的3D高斯基元,每个基元包含位置、协方差(决定椭球形状)、不透明度和视角相关颜色(用球谐系数表示)等参数[52][53] - 基本流程:用COLMAP做SfM初始化稀疏点云和高斯球;进行视锥剔除;通过可微分投影将3D高斯变换到2D;采用分块光栅化(Tile-based splatting)按深度排序并行渲染;计算损失并反向传播优化所有参数;通过自适应密度控制(克隆、分裂、剪枝)来增删基元[57][58][59][60][61][62][63][64] - 自适应增删基元的依据:增基元依据梯度反馈、几何特征和多视角一致性;删基元依据全局重要性评分、多视角一致性和几何特征;通过克隆、分裂、直接删除或软剪枝等方式实现,并周期性执行以保持优化稳定性[71][72][74][75][76][77][79][80][82][83][85] 3DGS在自动驾驶领域的应用 - **高精度场景重建**:AutoSplat框架通过物理约束优化实现高度逼真的自动驾驶场景还原;GaussianOcc通过全自监督3D占用估计技术,在无LiDAR标注下使占用预测精度比传统方法提升15%-20%;LumiGauss解决极端光照场景重建失效问题;EGSRAL可实现大规模驾驶场景的自动化3D重建与语义标注[88][89][90][91] - **感知能力增强**:DepthSplat实现3DGS与深度估计的直接联动,可修正LiDAR因遮挡导致的深度误差,使对弱势交通参与者的深度估计误差降低至5厘米以内;3DGS与SLAM融合可实时区分静态背景与动态物体,使定位误差从传统SLAM的0.5米降低至0.1米以内[92][93] - **动态场景建模**:DrivingGaussian专为环视相机设计,采用分区域高斯建模策略,实现360°全方位动态场景重建;GaussianCity通过高斯点分层存储与动态加载技术,将城市场景重建速度提升60倍,可实现平方公里级区域的实时建模[94][95] - **仿真闭环**:3DGS通过高保真场景生成与实时交互,为自动驾驶算法迭代构建更真实的数字孪生仿真环境[97] - **动态场景建模技术**:S³Gaussian采用自监督学习,通过时空场网络和多头高斯解码器实现无需标注的动态场景分解;DrivingGaussian采用增量静态高斯和复合动态高斯图的分层建模策略,并通过引入LiDAR先验使静态背景重建误差降低40%[98][100][102]
最近前馈GS的工作爆发了,我们做了一份学习路线图......
自动驾驶之心· 2025-12-13 02:04
3DGS技术趋势与行业动态 - 特斯拉在ICCV的分享中引入3D Gaussian Splatting技术,基于前馈式GS算法实现,成为行业关注亮点[2] - 学术界跟进迅速,出现如小米的WorldSplat和清华的DGGT等新工作,表明3DGS技术正在自动驾驶领域焕发新一轮生机[2] - 技术迭代速度极快,已从静态重建3DGS发展到动态重建4DGS、表面重建2DGS以及前馈式3DGS[4] - 行业普遍共识是采用前馈式GS重建场景,再利用生成技术生成新视角,多家公司正为此开放HC招聘[2] 3DGS技术课程核心内容 - 课程由自动驾驶之心联合工业界算法专家推出,旨在提供从原理到实战的完整3DGS学习路线图[4] - 课程设计耗时两个月,全面覆盖3DGS技术栈,帮助学员吃透点云处理、深度学习理论并掌握实时渲染与代码实战[4] - 讲师Chris来自某Tier1厂商,是算法专家,从事端到端仿真、多模态大模型、世界模型等前沿算法预研与量产,拥有丰富的三维重建实战经验[5] - 课程为离线视频教学,辅以VIP群内答疑和三次线上答疑,开课时间为12月1日,预计两个半月结课[15] 课程详细大纲与结构 - **第一章:背景知识**:涵盖计算机图形学基础,包括三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染,并介绍COLMAP、Gsplat等开发工具,设置基于3D Real Car训练模型的小作业[8] - **第二章:原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架[9] - **第三章:自动驾驶应用**:聚焦自动驾驶仿真重建,精讲浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用DriveStudio框架[10] - **第四章:研究方向**:探讨COLMAP扩展、深度估计及Relighting等重要研究方向,分析其工业界服务价值与学术探索意义[11] - **第五章:前馈式3DGS**:梳理前馈式3DGS的发展历程与算法原理,讲解最新的AnySplat和WorldSplat算法工作[12] - **第六章:答疑讨论**:通过线上交流形式,讨论3DGS岗位需求、行业痛点及开放性问题[13] 课程面向人群与学习收获 - 面向具备一定计算机图形学基础,了解视觉重建、NeRF、3DGS等技术,并拥有概率论、线性代数及Python、PyTorch语言基础的学员[17] - 学习收获包括掌握3DGS完善的理论知识及相关技术栈,掌握算法开发框架并能训练开源模型,获得与学术界及工业界同行持续交流的机会,对实习、校招、社招均有助益[17] - 学员需自备GPU,推荐算力在RTX 4090及以上[17] - 课程提供早鸟优惠,名额仅限30名[5][18]
做了一份3DGS的学习路线图,面向初学者
自动驾驶之心· 2025-11-22 02:01
文章核心观点 - 3D高斯泼溅(3DGS)技术,特别是前馈式3DGS(Feed-Forward GS),正成为自动驾驶、医疗、虚拟现实和游戏等领域的新兴重要技术栈 [2] - 场景重建或世界模型是行业急需攻克的关键场景,其中自动驾驶的业内闭环是核心痛点 [4] - 为满足行业需求,推出了《3DGS理论与算法实战教程》,旨在系统性地讲解从原理到实战的知识,帮助学习者全面掌握3DGS技术栈 [6] 技术应用与行业需求 - 3DGS技术已在多个领域获得广泛应用,主流技术方向包括2DGS、3DGS、4DGS和前馈GS [2] - 自动驾驶行业对场景重建和世界模型有迫切需求,业内闭环是真正的技术痛点 [4] - 传统三维重建领域也存在技术升级的刚需 [4] 课程内容与结构 - 课程核心算法涵盖静态重建3DGS、动态重建4DGS、表面重建2DGS、前馈式3DGS以及量产问题讨论 [6] - 课程设计思路是从计算机图形学基础讲起,逐步深入到3DGS原理、自动驾驶应用及前沿研究方向 [10][11][12][13][14] - 课程包含六个章节:3DGS背景知识、原理算法、自动驾驶应用、研究方向、前馈式3DGS及答疑讨论 [10][11][12][13][14][15] - 课程采用离线视频教学,配合VIP群内答疑和三次线上答疑,学习周期预计两个半月 [17] 课程具体章节重点 - 第一章重点讲解计算机图形学基础,包括三维空间表达、渲染管线及3DGS开发工具如SuperSplat、COLMAP和Gsplat [10] - 第二章深入讲解3DGS原理、核心伪代码及动态重建、表面重建等算法,实战部分使用英伟达开源3DGRUT框架 [11] - 第三章聚焦自动驾驶仿真重建,重点分析Street Gaussian、OmniRe和Hierarchy UGP三篇工作,实战使用DriveStudio [12] - 第四章探讨3DGS重要研究方向,包括COLMAP扩展、深度估计及Relighting,并分析其工业界应用与学术前景 [13] - 第五章梳理前馈式3DGS的发展历程与原理,讲解AnySplat和WorldSplat等最新算法 [14] 目标人群与学习收获 - 课程面向具备一定计算机图形学基础、了解视觉重建技术、并拥有Python和PyTorch基础的学习者 [19] - 学习者需自备GPU,推荐算力在RTX 4090及以上 [19] - 学后收获包括掌握3DGS理论知识和技术栈、熟悉算法开发框架、并能与学术界及工业界同行持续交流 [19]
驭势科技 | 规划算法工程师招聘(可直推)
自动驾驶之心· 2025-11-21 00:04
自动驾驶行业技术趋势 - 视觉语言动作模型成为行业焦点,小鹏汽车已官宣VLA2.0版本,工业界正推进该技术的量产落地[14] - 技术路线存在争论,前几个月曾出现世界模型和VLA路线之争,显示出技术方向尚在快速演进中[14] - 端到端自动驾驶是另一重要发展方向,与VLA共同代表行业前沿技术路线[14] 自动驾驶关键技术研究 - 3D高斯泼溅技术受到关注,其与3D目标检测结合可用于生成动态仿真场景,DriveStudio是自动驾驶领域的相关资源库[13] - 香港中文大学(深圳)联合滴滴提出UniSplat方法,这是一种基于3D潜在支架的时空统一融合方法,旨在实现动态驾驶场景的高效重建[14] - 规划算法核心技术包括混合A*、Lattice、QP、MPC等路径规划方法,并需结合车辆运动学、动力学建模知识[7] 行业人才需求与流动 - 驭势科技在北京房山招聘规划算法工程师,职责是研发满足复杂场景要求的无人驾驶轨迹规划算法[3][4] - 自动驾驶领域存在显著的人才跨行业流动现象,例如有从业者从国有银行转行至自动驾驶大厂,后又加入创业公司和新势力企业[13] - 企业对算法工程师的任职要求包括丰富的Linux系统下C/C++编程经验,并优先考虑学历背景优秀或具有智能驾驶大厂背景的候选人[7] 专业社区与知识分享 - 自动驾驶之心知识星球是行业技术交流和求职内推的重要平台,提供技术进展和行业动态[10] - 该平台定期举办“自驾圆桌”和“星友面对面”活动,例如2025年11月19日第四期活动嘉宾为香港高校博士生,研究方向涵盖BEV感知、VLA和多模态RAG等前沿技术[13] - 社区内活跃讨论具体技术问题,例如博士开题方向选择,涉及3D目标检测与3DGS结合的可行性探讨[13]
仿真专场!一文尽览神经渲染(NERF/3DGS)技术在具身仿真框架Isaac Sim中的实现
具身智能之心· 2025-09-28 01:05
神经渲染技术在仿真领域的应用 - 神经渲染技术(NERF/3DGS)通过神经网络表达空间,在新视角合成方面表现优越,直击辅助驾驶和具身智能仿真中传感器仿真的痛点,可解决传统计算机图形学渲染图像缺乏真实性的问题,广泛应用于算法闭环测试和训练 [3] - 现有研究围绕NERF和3DGS技术开发面向闭环测试的仿真框架,但完全新开发仿真框架工作量巨大,因此另一种思路是将训练好的NERF/3DGS模型嵌入现有仿真软件框架,以利用现有3D数字资产和算法接口工具链 [3] 技术集成与工具支持 - LumaAI的3DGS插件可将高斯点云ply插入基于Unreal的CARLA游戏引擎,而NVIDIA的Isaac Sim仿真软件也已支持神经渲染技术,允许插入3DGS模型 [4] - NVIDIA开源项目提出三维高斯渲染方法,可输出适用于Isaac Sim的usdz模型,3DGRUT工具支持将其他3DGS方法生成的高斯点云ply转化为usdz模型 [4] - 3DGRUT生成的usdz模型文件包含default.usda、gauss.usda等描述文件和nurec格式模型文件,可直接解压使用 [4] Isaac Sim中的操作流程 - Isaac Sim的神经渲染功能NuRec需5.0.0以上版本(Omniverse Kit 107.3以上),安装后可通过Content栏导航到usdz模型解压文件夹,将gauss.usda拖动或插入Stage,即可显示三维高斯模型 [5] - 导入的3DGRUT模型仅具备视觉特征,需通过2DGS等方法提取场景mesh(ply格式),并调整mesh的scale和位姿以匹配usdz渲染结果 [6][7] - 需将usdz模型与mesh绑定,在gauss的Property中选择Raw USD Properties,找到proxy并添加Target,选择mesh对象,最后勾选omni:nurec:useProxyTransform特性以实现对齐 [7] 物理属性与交互功能 - 需为mesh添加物理属性,右键选择mesh,在Add中选择Physics->Collider,以增加碰撞属性,避免物体穿透问题 [8] - 在mesh的Property中勾选Matte Object,配合DomeLight光照实现光影交互效果,同时可添加OmniPBR材料并将Reflectivity中的Specular降至最低,减少不必要的反光 [8] - 添加Rigid Body with Colliders Preset属性后,可进一步设置质量等物理属性,使模型与仿真环境中的其他物体(如球体、地面)产生碰撞交互 [14] 动态物体与场景构建 - 通过3DGS方法训练场景(如mipnerf360的kitchen),使用在线工具编辑ply文件提取特定物体(如乐高推土机),再经3DGRUT转化为usdz模型,可实现动态物体导入 [11][13] - 将动态物体(如推土机)放入其他神经渲染场景(如garden或room),可实现模型间及模型与原生物体的动态交互,显存占用较低,在3090显卡上fps表现良好 [15][17] 未解决的问题与挑战 - 神经渲染模型间的光影交互关系尚未完全解决,例如推土机未在神经渲染背景中投下阴影 [18] - 仿真环境测试具体算法的效果尚未探究,例如在room环境中让VLA算法执行"捡起地毯上的乐高推土机"指令的可行性 [19] - 需解决如何快速提供rgb图像外的真值信息(如图像分割、对象标注标签),以及如何获取动态物体的物理属性真值(如硬度、摩擦系数、质量) [19] - 需进一步提升计算效率,以支持更大规模神经渲染场景和更多对象的实时仿真 [19]
三维重建综述:从多视角几何到 NeRF 与 3DGS 的演进
自动驾驶之心· 2025-09-22 23:34
三维重建技术演进综述 - 三维重建是计算机视觉与图形学的交叉核心,作为虚拟现实、增强现实、自动驾驶、数字孪生等前沿应用的数字底座 [5] - 以神经辐射场(NeRF)和三维高斯抛雪球(3DGS)为代表的新视角合成技术,使重建质量、速度、动态适应性同时跃升 [5] - 技术演进从传统多视角几何(SfM→MVS)到NeRF与3DGS,为数字孪生、智慧城市、元宇宙等领域提供技术演进全景图 [5] 应用需求驱动技术革新 - 城市级数字孪生需求公里级范围、厘米级精度、分钟级更新 [6] - 自动驾驶仿真需求动态交通流、实时语义、可编辑车道 [6] - AR/VR社交需求轻终端、大于90 FPS、照片级真实感 [6] - 工业数字工厂需求弱纹理、反光、复杂拓扑完整建模 [6] - 传统先几何后纹理管线无法满足新需求,NeRF与3DGS通过可微渲染统一学习几何-纹理-光照,实现从离线静态到实时动态的突破 [6] 传统多视角几何重建(SfM→MVS) - 理论基石包括对极几何x'^T F x = 0、三角测量X = argmin(∑‖π(P_i,X)−x_i‖^2)和束调整min ∑‖x−π(P,X)‖^2 + λ‖P−P_0‖^2 [9][10] - 成熟工具链包括COLMAP(学术最常用,CPU优化)、OpenMVG(模块化,适合算法研究)、Agisoft Metashape(商业级,支持无人机影像)和ContextCapture(Bentley城市级解决方案) [11] - 存在五大痛点:数据饥渴需大于70%航向重叠加60%旁向重叠、弱纹理空洞(玻璃、白墙、水面、天空)、光照敏感导致阴阳面色差和纹理接缝明显、动态失效导致行人车辆重影/鬼影、编辑困难改一棵树要重跑全流程 [13][15] NeRF隐式神经辐射场(2020-2024) - 基础框架将场景建模为连续5D函数F_Θ:(x,y,z,θ,φ)→(c,σ),通过体渲染积分得到像素颜色 [13][14] - 质量提升路线包括Mip-NeRF(锥体追踪+集成位置编码解决锯齿混叠,训练时间×2)、NeRF-W(外观嵌入+可变光照解决天气/曝光变化,推理需调latent)、NeRF++(反向球面背景+双层场景解决远景退化,参数量+30%)、NeRFLiX(退化模拟器+视角混合解决伪影噪声,需合成数据预训练)、BAD-NeRF(运动模糊物理模型解决模糊输入鲁棒,需已知模糊核)、UHDNeRF(隐式体+稀疏点云高频实现8K超高清,显存增加) [17] - 效率优化路线包括InstantNGP(多分辨率哈希编码实现5秒至1分钟训练时间、5 FPS渲染、1.2 GB显存)、TensoRF(CP分解+低秩近似实现10分钟训练、10 FPS、300 MB显存)、NSVF(稀疏体素八叉树实现30分钟训练、15 FPS、500 MB显存)、Zip-NeRF(抗锯齿网格采样实现20分钟训练、20 FPS、400 MB显存)、Lightning NeRF(点云先验初始化实现8分钟训练、10 FPS、600 MB显存) [18] - 稀疏视角合成(小于10张图)方法包括FreeNeRF(频率正则+遮挡正则实现DTU 3-view PSNR 19.92,零额外开销)、FlipNeRF(反射射线过滤实现PSNR 19.55,减少漂浮物)、MixNeRF(混合密度+深度估计实现PSNR 18.95,提升几何)、HG3-NeRF(几何-语义-光度分层实现PSNR 19.37,需语义标签) [20] - 动态场景(视频输入)方法包括Deformable-NeRF(变形场Ψ(x,t)实现D-NeRF PSNR 29.8,正则化扭曲)、NSFF(场景流+静态/动态分解实现PSNR 31.5,可解释运动)、DNeRF(时间编码γ(t)实现PSNR 29.6,无需额外mask)、NeRFPlayer(静态+变形+新区域实现PSNR 30.2,流式播放)、Tensor4D(4D张量分解实现PSNR 31.0,内存下降50%) [21] 3DGS三维高斯溅射(2023-2025) - 基础公式将场景表示为3D高斯集合G={μ_i,Σ_i,α_i,SH_i}_{i=1}^M,投影到图像平面后按深度排序做α-混合C=∑_{i∈N}c_iα'_i∏_{j=1}^{i-1}(1-α'_j) [22][23] - 渲染质量优化方法包括Mip-Splatting(3D/2D Mip滤波实现抗锯齿,LPIPS下降10%)、Scaffold-GS(锚点生长-剪枝实现内存下降79%,覆盖提升)、GaussianPro(渐进传播+深度一致实现低纹理PSNR提升1.7 dB)、GSDF(高斯+SDF双分支实现几何误差下降30%)、SuperGS(粗到细+梯度引导分裂实现4K超分实时) [25] - MipNeRF360对比显示3DGS的PSNR 27.21、SSIM 0.815、LPIPS 0.214、FPS 134、内存734 MB;GSDF的PSNR 29.38、SSIM 0.865、LPIPS 0.185;Scaffold-GS的PSNR 28.84、SSIM 0.848、LPIPS 0.220、FPS 102、内存156 MB;SuperGS的PSNR 29.44、SSIM 0.865、LPIPS 0.130、FPS 47、内存123 MB [26] - 效率再升级方法包括LightGaussian(蒸馏+量化+伪视角实现15倍压缩,200 FPS)、CompGS(K-means+游程编码实现存储下降80%)、EAGLES(轻量化编码实现显存下降70%)、SuGaR(表面网格提取实现编辑友好,Poisson重建)、Distwar(寄存器级并行实现GPU原子操作下降60%) [27][28] - 稀疏视角重建(小于10张图)方法包括FSGS(单目深度+邻域上采样实现200 FPS,需预训练DepthNet)、SparseGS(扩散模型补全实现实时360°,生成伪标签)、LM-Gaussian(大模型视觉先验实现迭代细化,视频扩散)、MCGS(多视角一致性修剪实现内存下降50%,渐进剪枝) [29] - 动态重建(视频)方法包括Deformable 3D-GS(变形场实现D-NeRF PSNR 39.51,时序正则)、4D-GS(神经体素+MLP实现PSNR 34.05,分解4D特征)、Gaussian-Flow(双域变形实现PSNR 34.27,显式运动向量)、DN-4DGS(去噪网络实现PSNR 25.59,时空聚合) [30] 三代技术横向对比 - 核心表征:SfM/MVS为点云+Mesh,NeRF为隐式σ(x)+c(x),3DGS为显式高斯集合 [31] - 几何精度:SfM/MVS★★★★☆,NeRF★★★☆☆,3DGS★★★☆☆ [31] - 照片真实感:SfM/MVS★★☆☆☆,NeRF★★★★★,3DGS★★★★☆ [31] - 训练时间:SfM/MVS为小时级,NeRF为小时至天级,3DGS为分钟级 [31] - 渲染FPS:SfM/MVS小于1,NeRF小于1,3DGS为50-300 [31] - 动态扩展:SfM/MVS不支持,NeRF需变形场,3DGS支持时序高斯 [31] - 编辑性:SfM/MVS极难,NeRF隐式不可见,3DGS支持移动/删除/增改 [31] - 硬件门槛:SfM/MVS只需CPU,NeRF需8个高端GPU,3DGS只需1个消费GPU [31] - 代表落地:SfM/MVS用于测绘、文保,NeRF用于影视、直播,3DGS用于AR/VR、自动驾驶 [32] 未来5年技术雷达 - 混合表征:NeRF+3DGS+SDF统一框架,光滑表面用SDF,高频细节用高斯,空洞用NeRF补全 [33] - 端侧实时:INT4量化+TensorRT/ONNX实现手机30 FPS重建 [33] - 生成式重建:Diffusion先验+3DGS实现单图/文本生成可驱动3D资产 [33] - 物理-语义联合:引入光照模型、重力、语义标签实现一键可编辑城市场景 [33] - 多模态融合:LiDAR深度、事件相机、IMU、Thermal同步实现SfM-free鲁棒重建 [33] - 三维重建将走向人人可用、处处实时的普适计算时代,让每部手机、每台车、每副AR眼镜都拥有实时数字化的瑞士军刀 [34]
那些号称端到端包治百病的人,压根从来没做过PnC......
自动驾驶之心· 2025-09-16 23:33
端到端自动驾驶技术发展现状 - 国内新势力车企正在推进VLA(Vision-Language-Action)技术的落地和优化 而另一部分企业则聚焦WA(World Model)路线 更多车企和Tier1供应商仍处于端到端技术攻坚阶段[2] - 端到端系统通过输入传感器原始数据直接输出控制信号或自车轨迹 代表性算法包括UniAD和Sparse系列[3] - 端到端本质是实现感知信息的无损传递 解决模块化方法中人工定义感知结果无法覆盖开集场景的问题 目前工业界普遍采用模仿学习方法进行优化[4] 端到端技术挑战与行业共识 - 端到端系统虽提高性能上限但下限稳定性不足 实际落地仍需传统规控方法兜底 learning-based输出轨迹仍需经过传统PnC处理[5] - 行业共识是自动驾驶从规则驱动转向认知驱动 但端到端技术距离成熟仍有较长距离 需要更多时间沉淀[5] - 车企为突破感知模型迭代瓶颈 积极布局VLA和WA技术路线 但需理性看待端到端替代传统规控的局限性[5] 自动驾驶技术社区生态 - 自动驾驶之心知识星球社区规模已超4000人 覆盖超300家机构与自动驾驶公司 目标两年内达到近万人规模[8][102] - 社区整合40+技术方向学习路线 包括VLA、端到端、多模态大模型等前沿领域 并提供与一线产业界/学术界大佬的直接交流渠道[8][9][17] - 社区提供岗位内推机制 成员来自蔚小理、地平线、华为、英伟达等头部企业 以及国内外顶尖高校实验室[17] 技术资源体系 - 社区汇总近60+自动驾驶数据集 涵盖VLM预训练/微调/思维链/强化学习等类型 并整合3D目标检测/BEV感知/Occupancy等开源项目[37][53][55] - 提供七大福利视频教程 内容覆盖世界模型、自动驾驶大模型、Transformer等 已举办超百场专业技术直播[88][91] - 详细梳理端到端自动驾驶技术体系 包括一段式/二段式量产方案、VLA算法及里程碑方法 兼顾学术界与工业界需求[39][47]
肝了几个月,新的端到端闭环仿真系统终于用上了。
自动驾驶之心· 2025-07-03 12:41
技术突破与创新 - 神经场景表征发展中出现Block-NeRF等方法,但无法处理动态车辆,限制了自动驾驶环境仿真的应用 [2] - 浙大提出Street Gaussians技术,基于3DGS开发动态街道场景表示,解决训练成本高和渲染速度慢的问题,实现半小时内训练并以135 FPS速度渲染1066×1600分辨率图像 [2] - 动态场景表示为静态背景和移动车辆的点云组合,每个点分配3D高斯参数(位置、不透明度、协方差)和球面谐波模型表示外观 [3][4] - 背景模型使用世界坐标系点云,每个点包含3D高斯参数(协方差矩阵、位置向量)、不透明度、球面谐波系数和3D语义概率 [8] - 物体模型引入可学习跟踪车辆姿态,局部坐标系定义的位置和旋转通过跟踪姿势转换到世界坐标系,并采用4D球谐函数解决移动车辆外观建模的存储问题 [11][12] - 使用LiDAR点云初始化场景表示,对稀疏区域结合SfM点云补充,物体模型初始化采用3D边界框内聚合点或随机采样 [17] 算法优化与效果 - 4D球谐函数有效消除动态场景渲染中的伪影,提升外观建模准确性 [16] - 静态场景重建通过体素下采样和可见性过滤优化点云初始化,动态场景重建利用可学习姿态参数解决跟踪噪声问题 [17][11] - 自动驾驶场景重建实现动静态物体分解,支持场景编辑和闭环仿真应用 [43] 行业应用与课程 - 3DGS技术已衍生多个子方向(4D GS、场景编辑等),在自动驾驶仿真闭环中具有重要应用价值 [23][43] - 业内推出首门3DGS全栈实战课程,覆盖视觉重建基础、静态/动态场景重建、自动驾驶场景优化等模块,结合代码实战与论文带读 [26][33][35][37][39][41][43][45][47] - 课程由头部自动驾驶公司算法专家设计,目标培养学员掌握3DGS核心理论、前沿算法及实际应用能力 [50][53][54]