Workflow
视频扩散模型
icon
搜索文档
SIGGRAPH Asia 2025|30FPS普通相机恢复200FPS细节,4D重建方案来了
机器之心· 2025-12-14 04:53
核心观点 - 提出了一种名为“4DSloMo”的软硬协同解决方案,通过“异步采集”与“视频扩散模型修复”相结合,实现了仅利用30 FPS的普通相机阵列,就能恢复出相当于100-200 FPS的高质量动态4D模型,为高速4D重建提供了一条低成本、高质量的新路径 [2][3] 硬件革新:异步捕捉 - 核心思路是突破单个相机速度瓶颈,通过让多个相机协同工作,实现“接力式”拍摄 [6] - 具体方案是人为给不同相机或相机组设置微小启动延迟,进行“错峰拍摄”,从而在时间维度上获得更密集的信息 [6] - 例如,8台25 FPS的相机,若分成4组交替启动,可实现100 FPS的有效捕捉帧率;分成8组甚至能达到200 FPS,整个过程无需额外硬件成本 [8] 软件革新:视频扩散模型修复 - 异步捕捉带来了“稀疏视角”问题,导致初步重建结果产生“浮块”等视觉伪影 [10] - 为解决此问题,训练了一个专门用于修复4D重建伪影的视频扩散模型,其核心功能是接收含伪影的视频输入,并输出精修后的高质量视频 [13] - 该模型利用输入视频提供的时空上下文作为引导,专注于去除伪影并补全细节,其优势在于能保证修复结果的“时间一致性”,避免逐帧修复带来的纹理闪烁等问题 [13] - 通过在高质量4D数据上模拟异步捕捉过程生成训练数据集,并对大规模预训练视频模型进行微调,使其学习从伪影输入到清晰输出的映射关系 [13] 整体流程与框架 - 方法构建了一个迭代式的“重建-优化”框架,将硬件捕捉与AI算法相结合 [14] - 整体流程为:异步视频 → 初步重建 → 视频增强 → 优化4D模型 [17] - 具体步骤包括:1) 利用异步捕捉数据重建初步的4D高斯模型(存在伪影)[20];2) 用初步模型渲染出含伪影的视频作为扩散模型输入 [20];3) 将渲染视频送入视频扩散模型进行增强,去除伪影并提升质量 [15];4) 将增强后的高质量视频作为新的监督信号,进一步优化4D高斯模型,提升最终重建质量 [15] 方法效果与验证 - 在DNA-Rendering和Neural3DV两大公开数据集的测试中,该方法在PSNR、SSIM和LPIPS三项核心指标上超越了K-Planes、4DGS、GS4D等多种当前顶尖方法 [19] - 具体数据:在DNA-Rendering数据集上,PSNR为26.76,SSIM为0.845,LPIPS为0.293;在Neural3DV数据集上,PSNR为33.48,SSIM为0.951,LPIPS为0.134,均优于对比方法 [21] - 通过搭建包含12个25 FPS相机的真实多视角捕捉系统进行验证,证明该方法在真实、复杂的异步捕捉环境下,依然能够稳健地重建出高质量、时空一致的4D内容 [22]
任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式
机器之心· 2025-09-06 03:14
技术突破 - 提出AnimaX框架 支持任意骨骼拓扑结构的高效前馈式3D动画生成 突破传统方法对固定骨骼拓扑的限制[2][8] - 创新采用视频-姿态联合扩散模型 通过共享位置编码与模态嵌入实现跨模态时空对齐 将视频运动先验迁移至3D动画[5][12][14] - 设计多视角姿态图表示法 结合Plücker射线编码与多视角注意力机制 解决多视角不一致问题[14][15] 性能优势 - 在定量评测中主体一致性达0.962 运动平滑度0.990 外观质量0.517 均显著优于对比方案[23] - 人类偏好测试显示 在动作-文本匹配度获82.9%偏好率 形体一致性73.3% 整体运动质量77.9%[24] - 生成效率大幅提升 仅需数分钟即可完成动画序列 传统方法需数十小时优化[9][11][16] 数据集与泛化能力 - 构建包含约16万条绑定骨骼的3D动画数据集 涵盖人形/动物/家具/机械等多类别[8] - 可生成自然连贯的动画 包括人形角色/动物/家具/机械结构 展现强泛化能力[6][9][16] 方法比较 - 较MotionDreamer形变场约束能力有限 避免几何不一致和时序不稳定问题[21][22] - 较Animate3D重建困难导致静态结果 通过联合建模实现稳定输出[21][22] 应用前景 - 可扩展至场景级动态建模 推动4D内容生成发展[30] - 未来可结合长时序视频生成 提升长程动画连贯性与细节保真度[30]