Workflow
UniSplat
icon
搜索文档
简历直推 | 驭势科技招聘规划算法工程师!
自动驾驶之心· 2025-11-24 00:03
行业技术趋势 - 视觉语言动作模型成为自动驾驶行业重要发展方向 小鹏汽车已官宣VLA2 0版本[14] - 学术界与工业界存在世界模型和VLA技术路线之争 反映出技术路径尚处探索阶段[14] - 3D高斯泼溅技术在动态场景重建领域获得应用 香港中文大学联合滴滴提出UniSplat方法实现高效驾驶场景重建[14] - 端到端自动驾驶 大模型 强化学习等前沿算法已完成多项目预测和量产交付[13] 人才招聘需求 - 驭势科技招聘规划算法工程师 工作地点北京房山 要求研发复杂场景无人驾驶轨迹规划算法[3][4] - 岗位任职条件包括熟悉混合A* Lattice QP MPC等路径规划方法 了解车辆运动学动力学建模[7] - 优先考虑学历背景优秀或具智能驾驶大厂背景 有优化问题建模求解研究经历者[7] - 要求具备Linux系统下C/C++编程经验 机器人或无人驾驶规划项目经验[7] 专业社区动态 - 自动驾驶之心知识星球举办多期星友面对面活动 嘉宾来自香港高校博士 头部科技公司研发人员[13] - 社区讨论内容涵盖BEV感知 VLA 多模态RAG 3D目标检测与3DGS结合等前沿技术话题[13] - 圆桌讨论聚焦FSD v14技术分析 自动驾驶十年技术跃迁与未来路线等行业核心议题[13] - 社区提供技术资料共享 包括3DGS相关开源项目DriveStudio等资源[13]
滴滴和港中文最新的前馈3D重建算法UniSplat!史少帅参与~
自动驾驶之心· 2025-11-08 16:03
文章核心观点 - 港中文(深圳)、滴滴和港大的研究团队提出UniSplat,这是一种用于动态驾驶场景重建的通用前馈框架,其核心是构建统一的3D潜在Scaffold,通过融合多视图空间信息与多帧时间信息来实现鲁棒的新视角合成 [1] - UniSplat框架旨在解决自动驾驶环视场景中因稀疏非重叠相机视角和复杂场景动态性导致的现有前馈式3D重建技术表现不佳的问题 [1] - 实验表明,UniSplat在Waymo Open和NuScenes数据集上的新视角合成任务中达到当前最优性能,即使对于原始相机覆盖范围外的视角也能提供高质量渲染 [2][7] 技术背景与挑战 - 从城区驾驶场景中重建3D场景是自动驾驶系统的核心能力,支撑仿真、场景理解和长时程规划等关键任务 [5] - 3D高斯溅射技术虽在渲染效率和保真度上取得进展,但其通常假设输入图像间存在大量视角重叠且依赖逐场景优化,限制了在实时驾驶场景中的适用性 [5] - 前馈式重建方法通过单次前向传播合成新视角以实现更快推理,但城市驾驶场景的鲁棒重建仍面临维持时间上演化的统一表示、处理部分观测和遮挡以及从稀疏输入高效生成高保真高斯体等挑战 [5] UniSplat框架设计 - 框架核心是构建统一的3D潜在Scaffold,这是一种结构化表示,利用预训练基础模型捕捉场景的几何和语义上下文 [1][6] - 框架遵循三阶段流程:首先构建以自车为中心的3D Scaffold;其次进行时空融合,整合多视图空间上下文并融合历史Scaffold;最后通过双分支解码器将融合后的Scaffold解码为动态感知高斯体 [6] - 引入高效的融合机制,直接在3D Scaffold内运作,实现一致的时空对齐,并设计双分支解码器结合点锚定细化与体素化生成,确保重建结果的完整性和细节丰富度 [8][9] 关键技术组件 - 3D Scaffold构建阶段,利用几何基础模型推断3D结构,结合视觉基础模型补充语义信息,在自车坐标系下生成潜在Scaffold [14][16] - 统一时空Scaffold融合阶段,在3D空间直接执行空间融合,并通过自车运动补偿将历史Scaffold融合到当前Scaffold中,实现时间增强的场景表示 [20][21] - 动态感知高斯生成阶段,采用双分支解码策略,一点解码器分支保留细粒度几何细节,一体素解码器分支补充稀疏覆盖区域,并引入动态属性分离静态与动态成分 [23][24][27] 实验结果与性能 - 在Waymo Open数据集上,UniSplat在输入视图重建和新视角合成任务的所有指标上均持续优于基线方法MVSplat、DepthSplat、EvolSplat和DriveRecon [33] - 在nuScenes数据集上,UniSplat的PSNR达到25.37 dB,较此前最优方法Omni-Scene提升1.10 dB [37] - 模型展现出对原始相机覆盖范围外挑战性视角的泛化能力,并能有效区分动态与静态目标,抑制重影伪影,实现渐进式场景补全 [7][37] 消融实验分析 - 消融实验表明,Scaffold中同时包含几何和语义特征对性能至关重要,缺失语义特征会导致LPIPS指标显著下降0.05 [41] - 空间融合较仅依赖图像域融合的基线方法PSNR提升0.36 dB,加入时间融合后PSNR再提升0.58 dB,证明统一时空建模的重要性 [42] - 双分支解码器中,仅使用点锚定高斯分支会导致PSNR降低0.46 dB,证明体素生成分支对提升场景完整性至关重要 [43]
滴滴和港中文最新的前馈3D重建算法UniSplat!史少帅参与~
自动驾驶之心· 2025-11-08 12:35
文章核心观点 - 港中文(深圳)、滴滴和港大团队提出UniSplat,一种用于动态驾驶场景重建的通用前馈框架,其核心是构建统一的3D潜在Scaffold,通过融合多视图空间信息与多帧时间信息来实现鲁棒的新视角合成 [1][6] - UniSplat在Waymo和NuScenes数据集上的实验表明,其在新视角合成任务中达到当前最优性能,PSNR达到25.37 dB,较此前最优方法提升1.10 dB [7][34][37] - 该框架对自动驾驶系统的仿真、场景理解和长时程规划等关键任务具有重要支撑作用 [5] 技术背景与挑战 - 城区驾驶场景的3D重建是自动驾驶系统的核心能力,但现有3D高斯溅射技术通常假设输入图像间存在大量视角重叠,且依赖逐场景优化,限制了在实时驾驶场景中的适用性 [5] - 城市驾驶场景中的鲁棒重建面临三大挑战:维持随时间平滑演化的统一潜在表示、处理部分观测和遮挡及动态运动、从稀疏输入中高效生成高保真高斯体 [5] - 前馈式重建方法通过单次前向传播合成新视角,但EvolSplat忽略语义融合且缺乏动态处理机制,Omni-Scene未纳入时间聚合且受限于粗粒度3D细节 [5] UniSplat框架设计 - 框架采用三阶段流程:首先构建以自车为中心的3D Scaffold编码几何和语义线索,其次进行时空融合整合多视图空间上下文和历史Scaffold,最后通过双分支解码器生成动态感知高斯体 [6] - 引入高效的融合机制直接在3D Scaffold内运作实现一致的时空对齐,空间融合采用稀疏3D U-Net整合多视图特征,时间融合通过自车运动补偿将历史Scaffold融合到当前Scaffold [20][21][22] - 设计双分支解码器,点解码器分支利用点级锚点保留细粒度几何细节,体素解码器分支直接从体素中心生成新高斯基元以提升场景完整性 [23][24][27] 核心技术创新 - 提出统一3D潜在Scaffold作为结构化表示,支持在3D空间内直接进行跨视图和跨时间帧的时空融合,避免传统2D图像域融合受视图重叠有限影响的问题 [6][20] - 创新性引入动态感知高斯补全机制,每个高斯基元关联动态属性,通过运动感知过滤和静态高斯记忆库实现随时间累积的渐进式场景补全 [23][29] - 利用预训练几何基础模型和视觉基础模型捕捉场景的几何和语义上下文,为Scaffold构建提供鲁棒先验,其中几何基础模型直接预测密集3D点云解决尺度模糊问题 [14][15] 实验结果与分析 - 在Waymo数据集上,UniSplat在输入视图重建和新视角合成任务的所有指标上均持续优于MVSplat、DepthSplat、EvolSplat和DriveRecon等基线方法 [33] - 在nuScenes数据集上,UniSplat的PSNR达到25.37 dB,SSIM达到0.765,显著超过Omni-Scene等此前最优方法 [34][37] - 消融实验表明,同时使用几何和语义特征时PSNR达到25.08 dB,而缺失语义特征会导致LPIPS指标显著下降;空间融合和时间融合分别带来PSNR提升0.36 dB和0.58 dB [41][42] 技术影响与潜力 - UniSplat框架展现出对原始相机覆盖范围外挑战性视角的出色泛化能力,即使对于稀疏非重叠相机视角和复杂场景动态性也能提供高质量渲染结果 [1][7] - 该技术为动态场景理解、交互式4D内容创建及终身世界建模等未来研究方向提供了极具潜力的基础 [44] - 通过流式记忆机制实现时间持久化重建,同时抑制动态伪影,为自动驾驶长时程场景理解提供了新的技术路径 [29][44]