First-person video and human action synchronization generation

搜索文档
首次实现第一视角视频与人体动作同步生成!新框架攻克视角-动作对齐两大技术壁垒
量子位· 2025-09-30 12:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI AI生成第三视角视频已经驾轻就熟,但第一视角生成却仍然"不熟"。 为此,新加坡国立大学、南洋理工大学、香港科技大学与上海人工智能实验室联合发布 EgoTwin , 首次实现了第一视角视频与人体动作的 联合生成 。 一举攻克了 视角-动作对齐 与 因果耦合 两大瓶颈,为可穿戴计算、AR及具身智能打开落地新入口。 EgoTwin 是一个基于扩散模型的框架,能够以视角一致且因果连贯的方式联合生成第一人称视角视频和人体动作。 1. 视角对齐难题 生成视频中的相机轨迹,必须与人体动作推导的头部轨迹精准匹配。但现有方法多依赖预设相机参数生成视频,而第一视角的相机轨迹并 非外部给定,而是由穿戴者头部动作内生决定,需要二者同步生成以保证对齐。 生成的视频可以通过从人体动作推导出的相机位姿,借助 3D 高斯点渲染(3D Gaussian Splatting)提升到三维场景中。 下面具体来看。 第一视角视频与人体动作同步生成 核心挑战:第一视角生成的"两难困境" 第一视角视频的本质是 人体动作驱动的视觉记录 ——头部运动决定相机的位置与朝向,全身动作则影响身体姿态与周围场景变 ...