单图全身数字人重建
搜索文档
一张照片,一个3D「你」:计算所等提出HumanLift,实现高保真数字人重建
机器之心· 2025-10-21 23:20
行业技术背景与挑战 - 创建高真实感三维数字人在影视、游戏、VR/AR等领域有广泛应用,但从单张图片重建仍面临技术复杂、资源消耗大的挑战[2] - 核心难题在于如何兼顾三维一致性、参考图像一致性,并生成高真实度且细节一致的服饰、人脸[2] - 早期方法分为显式和隐式两类:显式方法依赖参数化模型,难以处理复杂衣着;隐式方法计算成本高,生成纹理真实感不足[8] - 尽管生成模型(如Stable Diffusion)和神经隐式渲染方法(如NeRF、3D-GS)快速发展,但将其拓展至高真实感三维人体建模仍面临数据稀缺、人物姿势与服饰复杂等困难[8] - 现有方法或受文本条件模糊性限制难以还原精细服装细节,或缺乏三维先验导致视角不一致,或存在面部细节缺失问题[8][9] HumanLift技术方案概述 - 该技术由中国科学院计算技术研究所、香港科技大学和英国卡迪夫大学的研究人员合作提出,论文已被SIGGRAPH ASIA 2025接收[2] - 技术目标:输入单张人物图像,重建出高质量、高逼真度的三维数字人,能在不可见视角下准确估计人物外观和服饰几何细节,保持多视角一致性[4] - 方法框架分为两个阶段:第一阶段是多视角图像生成,第二阶段是3D-GS模型重建[11] 第一阶段:多视角图像生成 - 旨在从单张日常照片生成逼真的多视角图像,设计了一种具备3D感知能力的多视角人体生成方法[13] - 生成器骨干网络基于视频生成模型Wan2.1构建,该模型在大量2D通用视频上训练,具备强大的高保真视频推断能力[13] - 引入了额外的三维人体先验(SMPL-X的多视角语义图像)作为3D引导条件,并将其嵌入到Wan2.1中[14] - 设计了两种专门针对人体优化的模型:HumanWan-DiT(RGB)和HumanWan-DiT(Normal),以增强视角一致性和几何细节[14] - 采用低秩适应(LoRA)技术进行内存高效的参数微调,以减少训练内存开销[14] - 通过一个由堆叠3D卷积层组成的轻量条件编码器,对人体的三维先验信息进行编码[14] 第二阶段:3D-GS模型重建 - 利用第一阶段生成的多视角Normal图片和RGB图片,重建人体的3D-GS表示[15] - 借助现有生成模型对超分辨率的面部图像进行多视角图片生成,生成具有标准空间下相机姿态的高质量多视角面部图像[16] - 以生成的多视角人脸图像和第一阶段生成的多视角人体图像作为监督信号,基于高斯网表示对三维高斯球的参数进行优化[17] - 为确保面部渲染准确性,将面部图像的相机姿态从标准空间转换到SMPL-X头部(世界空间),以监督面部部分的高斯球属性[17] - 根据每次迭代优化后的SMPL-X姿态参数,动态调整面部相机姿态,确保其与头部的3D高斯球始终保持一致[17] 技术效果与验证 - 在真实拍摄人物图片中,该方法预测的多视角RGB图像具有照片级真实感,多视角法向图能精准反映人物及服饰的几何细节,且整体保持良好空间一致性[19][20] - 方法对不同服饰风格、不同拍摄场景下的人物案例均能稳定生成高质量、高一致性的三维数字人,展示了良好的泛化能力[20] - 消融实验验证了各模块作用:禁用面部增强导致面部细节明显缺失,真实感大幅下降[22];禁用SMPL-X姿态优化导致人体姿态与头部相机位姿匹配度降低,头部渲染效果偏离真实场景[22];禁用人体多视角法线图监督导致服饰细节丢失严重,几何结构呈现不准确[23] - 实验证明,面部增强模块显著提升面部细节质量;SMPL-X优化模块能有效调整人体姿态参数并同步更新头部相机位姿;基于微调HumanWan-DiT(Normal)模型提供的法线监督能更好地保留衣物细节[23] 技术意义与结论 - 随着大模型和生成式AI发展,HumanLift为单图全身数字人重建问题提供了新的解决范式[25] - 该方法通过微调基于三维扩散先验的视频生成模型和专门设计的人脸增强模块,有效解决了传统方法真实感不足、生成式方法难以在姿势、服饰细节和人脸真实感与一致性之间平衡的问题[25] - 用户无需繁琐数据处理,仅需输入单张参考图片,就能重建出高质量、高逼真度的三维数字人[25]