Workflow
3DGS
icon
搜索文档
北大升级DrivingGaussian++:无需训练,智驾场景自由编辑!
自动驾驶之心· 2025-08-31 23:33
3D场景重建与编辑技术突破 - 提出DrivingGaussian++框架 实现大规模动态驾驶场景的高精度分层建模 通过复合高斯泼溅(Composite Gaussian Splatting)将场景分解为静态背景和动态目标分别重建[4] - 引入LiDAR先验提升几何精度 将多帧LiDAR扫描点云与环视图像配准 通过密集束调整(DBA)优化点云位置 显著改善多视图一致性和重建质量[11][25][26] - 采用增量静态3D高斯(Incremental Static 3D Gaussians)处理大规模背景 按时间顺序划分深度区间并逐步融合 解决透视变化导致的尺度混淆问题[27][29] - 构建复合动态高斯图(Composite Dynamic Gaussian Graphs)建模多目标 通过目标ID和时间戳跟踪动态元素 使用变换矩阵将目标坐标系转换到世界坐标系[31][32] 无需训练的场景编辑能力 - 开发无需训练的编辑框架 支持纹理修改 天气仿真和目标操纵三大任务 通过直接操作高斯粒子实现物理准确的编辑效果[18][19][20] - 纹理修改采用深度均衡化技术 对编辑区域深度图进行归一化处理 确保表面平整度 公式为$D_{\rm opt}(M_{\rm edit},x,y)=Average(D_{\rm ori}(M_{\rm edit},y))$[44][46] - 天气仿真通过粒子系统实现 雨滴使用狭窄半透明白色高斯 雪花采用不规则白色椭球高斯 雾采用随机分布高斯 并添加物理轨迹模拟动态效果[47] - 目标操纵支持删除和插入操作 利用3D边界框精确定位 对插入目标使用MCLight进行光照适配 并通过LLM生成运动轨迹预测[48][51] 性能表现显著领先 - 在nuScenes数据集上PSNR达28.74 SSIM达0.865 LPIPS降至0.237 全面优于Instant-NGP(PSNR 16.78) Mip-NeRF360(PSNR 22.61)和EmerNeRF(PSNR 26.75)[55][56] - 编辑效率显著提升 执行时间仅需3~10分钟 远低于InstructNeRF2NeRF的274分钟和ClimateNeRF的107分钟[70][71] - 在CLIP-direction相似性指标上达0.2327 超过InstructNeRF2NeRF(0.1570)和InstructGS2GS(0.0918) 体现卓越的文本对齐能力[71] - 单目视图重建在KITTI-360数据集表现优异 PSNR达25.62 SSIM达0.868 超过NeRF(21.94)和Point-NeRF(21.54)[59][60] 构建3D高斯前景资源库 - 创建包含车辆 行人 交通标志等元素的3D高斯前景库 支持直接插入场景编辑[62][74] - 通过在线模型重建 使用Blender渲染360度视图并结合COLMAP进行3DGS重建[76] - 对nuScenes车辆进行稀疏重建 每辆车仅需2~4张参考图像即可完成高斯重建[77] - 结合DreamGaussian和DreamGaussian4D实现基于图像的3D目标生成 扩展数据集多样性[77] 技术方案优势验证 - 消融实验证实LiDAR先验关键作用 使用LiDAR-2M点云时PSNR达28.78 显著优于随机初始化(22.23)和SfM点初始化(28.36)[79][80] - 复合动态高斯图模块贡献突出 移除后PSNR降至26.97 SSIM降至0.752 证明其对动态场景建模的重要性[82][83] - 损失函数设计有效 包含TSSIM损失和鲁棒损失后 纹理细节改善且伪影消除[37][38][84]
自动驾驶之心技术交流群来啦!
自动驾驶之心· 2025-07-29 07:53
自动驾驶技术交流平台 - 公司是国内领先的自动驾驶技术交流平台 专注于自动驾驶产业 学术与职场成长等领域 [1] - 平台提供技术交流群 涵盖大模型 端到端 VLA BEV感知 多模态感知等前沿技术方向 [1] - 交流范围包括感知 规划控制 仿真测试 硬件配置等自动驾驶全产业链环节 [1] - 平台面向企业 高校研究人员开放 需提供公司/学校 昵称和研究方向信息加入 [1]
从25年顶会论文方向看后期研究热点是怎么样的?
自动驾驶之心· 2025-07-06 08:44
计算机视觉与自动驾驶研究热点 - 2024年CVPR和ICCV两大顶会的研究热点集中在四大领域:通用计算机视觉、自动驾驶相关、具身智能、3D视觉 [2] - 通用计算机视觉细分方向包括diffusion模型、图像质量评估、半监督学习、零样本学习、开放世界检测等 [3] - 自动驾驶领域聚焦端到端系统、闭环仿真3DGS、多模态大模型、扩散模型、世界模型、轨迹预测等技术 [3] - 具身智能领域重点研究方向为VLA(视觉语言动作模型)、零样本学习、机器人操作、端到端控制、sim2real迁移、灵巧抓取等 [3] - 3D视觉领域热点包括点云补全、单视图重建、3D高斯泼溅(3DGS)、3D匹配、视频压缩、神经辐射场(NeRF)等 [3] 自动驾驶技术应用方向 - 自动驾驶核心技术涵盖大模型应用、VLA系统、端到端解决方案、3D高斯泼溅(3DGS)、BEV感知、多传感器融合等 [4] - 具体技术分支包括毫米波雷达与视觉融合、激光雷达与视觉融合、多传感器标定、车道线检测、在线地图构建、Occupancy网络等 [4] - 决策规划领域涉及高性能计算、语义分割、轨迹预测、世界建模、3D目标检测等关键技术 [4] 具身智能与机器人技术 - 具身智能核心方向包括视觉语言导航、强化学习、Diffusion Policy、具身交互、机器人位姿估计等 [4] - 机器人控制技术覆盖运动规划、双足/四足机器人控制、遥控操作、触觉感知、SLAM等 [4] - 零样本学习在具身智能中具有重要应用价值 [4] 3D视觉与通用CV技术 - 3D视觉关键技术包含点云处理、3D高斯泼溅(3DGS)、SLAM等 [4] - 通用计算机视觉持续关注diffusion模型、图像质量评估、半监督学习等基础方向 [4] - 零样本学习在通用CV和具身智能领域均具有交叉应用 [3][4] 学术成果与科研支持 - 自动驾驶领域已有2篇论文被CVPR 2025收录 [3] - 科研支持范围覆盖自动驾驶顶会(CCF-A/B/C)、SCI各分区期刊、EI/中文核心等 [4] - 技术支持方向包括毕业论文、申博研究、学术竞赛等应用场景 [4]
还不知道发什么方向论文?别人已经投稿CCF-A了......
具身智能之心· 2025-06-18 03:03
具身智能之心论文辅导服务 - 核心观点:提供具身智能领域的论文辅导服务,帮助学员冲击顶级会议 [1] - 辅导方向包括多模态大模型、机器人导航、机器人抓取、具身泛化、具身合成数据、端到端具身智能体、3DGS等 [2] - 辅导老师均在CVPR、ICCV、ECCV、ICLR、RSS、ICML、ICRA等顶级会议发表过论文 [3] 学员要求 - 需要自带简历,学校背景要求国内TOP100高校或国外QS200以内 [5] - 详细内容可通过微信咨询 [5]