Workflow
4D重建
icon
搜索文档
SIGGRAPH Asia 2025|30FPS普通相机恢复200FPS细节,4D重建方案来了
机器之心· 2025-12-14 04:53
核心观点 - 提出了一种名为“4DSloMo”的软硬协同解决方案,通过“异步采集”与“视频扩散模型修复”相结合,实现了仅利用30 FPS的普通相机阵列,就能恢复出相当于100-200 FPS的高质量动态4D模型,为高速4D重建提供了一条低成本、高质量的新路径 [2][3] 硬件革新:异步捕捉 - 核心思路是突破单个相机速度瓶颈,通过让多个相机协同工作,实现“接力式”拍摄 [6] - 具体方案是人为给不同相机或相机组设置微小启动延迟,进行“错峰拍摄”,从而在时间维度上获得更密集的信息 [6] - 例如,8台25 FPS的相机,若分成4组交替启动,可实现100 FPS的有效捕捉帧率;分成8组甚至能达到200 FPS,整个过程无需额外硬件成本 [8] 软件革新:视频扩散模型修复 - 异步捕捉带来了“稀疏视角”问题,导致初步重建结果产生“浮块”等视觉伪影 [10] - 为解决此问题,训练了一个专门用于修复4D重建伪影的视频扩散模型,其核心功能是接收含伪影的视频输入,并输出精修后的高质量视频 [13] - 该模型利用输入视频提供的时空上下文作为引导,专注于去除伪影并补全细节,其优势在于能保证修复结果的“时间一致性”,避免逐帧修复带来的纹理闪烁等问题 [13] - 通过在高质量4D数据上模拟异步捕捉过程生成训练数据集,并对大规模预训练视频模型进行微调,使其学习从伪影输入到清晰输出的映射关系 [13] 整体流程与框架 - 方法构建了一个迭代式的“重建-优化”框架,将硬件捕捉与AI算法相结合 [14] - 整体流程为:异步视频 → 初步重建 → 视频增强 → 优化4D模型 [17] - 具体步骤包括:1) 利用异步捕捉数据重建初步的4D高斯模型(存在伪影)[20];2) 用初步模型渲染出含伪影的视频作为扩散模型输入 [20];3) 将渲染视频送入视频扩散模型进行增强,去除伪影并提升质量 [15];4) 将增强后的高质量视频作为新的监督信号,进一步优化4D高斯模型,提升最终重建质量 [15] 方法效果与验证 - 在DNA-Rendering和Neural3DV两大公开数据集的测试中,该方法在PSNR、SSIM和LPIPS三项核心指标上超越了K-Planes、4DGS、GS4D等多种当前顶尖方法 [19] - 具体数据:在DNA-Rendering数据集上,PSNR为26.76,SSIM为0.845,LPIPS为0.293;在Neural3DV数据集上,PSNR为33.48,SSIM为0.951,LPIPS为0.134,均优于对比方法 [21] - 通过搭建包含12个25 FPS相机的真实多视角捕捉系统进行验证,证明该方法在真实、复杂的异步捕捉环境下,依然能够稳健地重建出高质量、时空一致的4D内容 [22]
ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片
机器之心· 2025-07-23 10:36
视频生成技术 - 提出ReCamMaster模型 可对输入视频沿新相机轨迹重新运镜 解决无人机缺失或手抖导致的运镜问题 [2] - 模型支持用户上传任意视频并指定新相机轨迹 实现视频重运镜效果 [2] - 在4D重建 视频去抖动 自动驾驶 具身智能等领域具有应用潜力 [3] 技术创新点 - 核心创新在于提出新的video conditioning范式 将condition video与target video在patchify后沿时间维度拼接 [11] - 新范式相比传统通道维度拼接方法有显著性能提升 [11] - 首次实现单视频重运镜的准产品级性能 验证视频生成模型在此类任务的潜力 [13] 数据集资源 - 发布MultiCamVideo数据集 包含13,600个动态场景 每个场景由10个摄像机同步拍摄 [13] - 数据集总量达136,000个视频 包含112,000种不同相机轨迹 [13] - 数据集涵盖66个人物主体 93种人物动作和37个3D环境背景 [13] 性能验证 - 与最先进方法相比 ReCamMaster在视频生成质量上有大幅度性能提升 [15] - 生成视频能保持原视频场景和动态 在不同场景下展现良好泛化性 [11] 项目资源 - 开源项目代码 训练测试脚本及完整数据集 [4] - 提供论文链接和项目主页展示更多技术细节与案例 [4][11]