First-person video and human action synchronization generation - 财报，业绩电话会，研报，新闻

First-person video and human action synchronization generation

搜索文档

量子位· 2025-09-30 12:22

技术突破 - 首次实现第一视角视频与人体动作的联合生成，攻克了视角-动作对齐与因果耦合两大核心瓶颈[1][2][4] - 提出基于扩散模型的框架，通过三模态联合生成框架实现文本、视频、动作的同步生成[4][12] - 采用异步扩散训练策略，为视频与动作分支设置独立采样时间步，适配不同模态演化节奏[23] 核心创新 - 创新性地提出以头部为中心的动作表征，直接将动作锚定在头部关节，使头部姿态回归误差显著降低[19][20][26] - 引入控制论启发的交互机制，在注意力机制中加入结构化掩码，实现视频与动作间的双向因果交互[20][21] - 采用三阶段训练范式，包括动作VAE预训练、文本-动作预训练和三模态联合训练，兼顾效率与性能[27] 性能表现 - 在9项评估指标上全面超越基线模型VidMLD，其中视角对齐误差从1.28米降低至0.67米，降幅达48%[32][33] - 手部可见一致性指标HandScore从0.36提升至0.81，增幅达125%[32][33] - 消融实验证实三大核心设计缺一不可，移除任一创新点均导致模型性能明显下降[34] 应用前景 - 技术为可穿戴计算、AR内容创作及具身智能打开了新的落地入口[2][34] - 生成的视频可通过3D高斯点渲染技术提升到三维场景中，支持多种生成模式[5][24][29][30]

Artificial Intelligence

First-person video and human action synchronization generation

Artificial Intelligence

EgoTwin

Artificial Intelligence

First-person video and human action synchronization generation

Artificial Intelligence

EgoTwin