Workflow
首次实现第一视角视频与人体动作同步生成!新框架攻克视角-动作对齐两大技术壁垒
量子位·2025-09-30 12:22

技术突破 - 首次实现第一视角视频与人体动作的联合生成,攻克了视角-动作对齐与因果耦合两大核心瓶颈[1][2][4] - 提出基于扩散模型的框架,通过三模态联合生成框架实现文本、视频、动作的同步生成[4][12] - 采用异步扩散训练策略,为视频与动作分支设置独立采样时间步,适配不同模态演化节奏[23] 核心创新 - 创新性地提出以头部为中心的动作表征,直接将动作锚定在头部关节,使头部姿态回归误差显著降低[19][20][26] - 引入控制论启发的交互机制,在注意力机制中加入结构化掩码,实现视频与动作间的双向因果交互[20][21] - 采用三阶段训练范式,包括动作VAE预训练、文本-动作预训练和三模态联合训练,兼顾效率与性能[27] 性能表现 - 在9项评估指标上全面超越基线模型VidMLD,其中视角对齐误差从1.28米降低至0.67米,降幅达48%[32][33] - 手部可见一致性指标HandScore从0.36提升至0.81,增幅达125%[32][33] - 消融实验证实三大核心设计缺一不可,移除任一创新点均导致模型性能明显下降[34] 应用前景 - 技术为可穿戴计算、AR内容创作及具身智能打开了新的落地入口[2][34] - 生成的视频可通过3D高斯点渲染技术提升到三维场景中,支持多种生成模式[5][24][29][30]