Workflow
双向因果注意力交互机制
icon
搜索文档
EgoTwin :世界模型首次实现具身「视频+动作」同框生成,时间与空间上精确对齐
具身智能之心· 2025-08-28 01:20
技术框架创新 - 提出EgoTwin框架,首次实现第一视角视频与人体动作的联合生成,两者在时间与空间上精确对齐 [2][5] - 采用三通道网络架构,各通道配备独立tokenizer与Transformer模块,跨通道共享权重以减少冗余计算 [11][13] - 基于Head-centric的动作表示将头部设为根节点,直接输出头部6D位姿,使头-相机轨迹一一对应,无需正向运动学推导 [12] 性能突破 - 轨迹对齐误差(TransErr)从1.28米降至0.67米,降幅达48% [7][18][19] - 手部可见性F-score从0.36提升至0.81,增幅达125% [7][18][19] - 在9项评测指标中全面领先基线,包括I-FID从157.86降至98.17,FVD从1547.28降至1033.52 [18][19] 多模态交互机制 - 建立文本-视频-动作双向因果注意力交互机制,实现动作token与视频token的因果循环闭环 [12][14] - 采用异步扩散机制,视频与动作在各自时间轴独立加噪去噪后再交叉通信,保证同步性 [12][16] - 支持T2VM(文本生成视频+动作)、TM2V(文本+动作生成视频)、TV2M(文本+视频生成动作)三种生成模式 [8][16][24] 数据与训练 - 基于Nymeria数据集使用17万段5秒剪辑视频训练,涵盖百余种日常动作 [8][17] - 训练分三阶段:先训练动作VAE,再冻结文本/视频分支训练动作对齐,最后三模态联合微调 [21] - 使用T5-XXL编码文本(226 token)、3D因果VAE处理视频(41帧480×480压缩至9900 token)、自研1D因果VAE处理动作(81帧23关节骨骼压缩至21 token) [20] 应用场景 - 适用于AR/VR、具身智能与可穿戴设备领域,实现视角一致且因果连贯的生成效果 [2][5] - 消融实验证实移除Head-centric标注、双向注意力或异步扩散任一组件均导致一致性指标急剧恶化 [22][23]