Workflow
运动学部件分解
icon
搜索文档
用2D数据解锁3D世界:首个面向运动学部件分解的多视角视频扩散框架
机器之心· 2025-09-22 10:27
研究背景与动机 - 现有角色动画和3D内容制作方法在骨骼绑定与部件分解方面存在明显局限 包括自动rigging依赖有限3D数据集导致泛化性不足 以及部件分解依赖语义或外观特征缺乏真实运动学结构建模 [4] - 核心动机是利用大规模2D数据和预训练扩散模型的强大先验知识来解决运动学部件分解问题 并进一步延伸到自动rigging 突破3D数据稀缺瓶颈 [4] 研究方法与创新 - 提出Stable Part Diffusion 4D (SP4D)框架 是首个面向运动学部件分解的多视角视频扩散框架 采用双分支扩散架构同时生成外观与运动学结构 [7] - 创新包括BiDiFuse双向融合模块实现RGB与部件信息的跨模态交互 以及对比一致性损失确保部件在不同视角和时间下保持稳定一致 [10] - 构建KinematicParts20K数据集 基于Objaverse-XL包含超过20,000个带骨骼注释的对象 提供高质量训练与评估数据 [10] 实验结果 - 在KinematicParts20K验证集上 SP4D的mIoU达到0.68 显著高于SAM2的0.15和DeepViT的0.17 ARI达到0.60 远高于SAM2的0.05 [11] - 用户研究显示在部件清晰度 跨视角一致性和动画适配性三项指标上 SP4D平均得分4.26/5 显著优于SAM2的1.96和DeepViT的1.85 [11] - 在自动rigging任务中 SP4D的Rigging Precision达到72.7 优于Magic Articulate的63.7和UniRig的64.3 用户评估动画自然度得分4.1/5 远高于Magic Articulate的2.7与UniRig的2.3 [14] 技术突破与应用价值 - SP4D被Neurips 2025接受为Spotlight 展示如何利用大规模2D先验打开3D运动学建模与自动rigging新局面 [16] - 该技术为动画 游戏 AR/VR 机器人模拟等领域的自动化与智能化奠定基础 能够生成时空一致的部件分解并提升为可绑定的3D网格 直接应用于动画制作 [8][16]