Workflow
UCLA提出PEVA:具身Agents的世界模型时代
具身智能之心·2025-06-30 03:47

背景与动机 - 具身智能体面临理解物理动作与视觉感知关系的根本挑战,人类通过全身动作主动改变第一人称视角的视觉输入,这对环境交互和长期规划至关重要 [3] - 现有世界模型(如基于速度控制的导航模型)存在显著局限,阻碍智能体在真实场景中的物理交互能力 [3] - 研究提出PEVA模型,首次将全身3D姿态作为条件信号预测第一人称视频,为具身智能提供物理基础更扎实的仿真环境 [3] 核心创新点 结构化全身动作表征 - 将动作定义为48维向量,融合全局身体运动(骨盆位移)与局部关节旋转(15个上半身关节的欧拉角变化),通过运动学树结构保留层次关系 [4] - 区别于二维导航控制,该表征在运动自由度上提升24倍,支持从步行到抓取的精细控制 [9] - 动作定义为相邻帧间的位姿变化量,直接关联物理运动与视觉结果 [9] 条件扩散Transformer架构创新 - 轻量级动作嵌入:直接拼接动作向量输入AdaLN层,在保持性能的同时降低计算负载 [8] - 随机时间跳跃:训练时随机采样间隔帧(如16帧覆盖32秒视频),将时间间隔作为附加条件,解决长时动作建模的计算效率问题 [10] - 序列级训练:采用自回归扩散损失,通过前缀序列并行训练保持时序连贯性,克服单帧预测的碎片化问题 [10] 分层评估协议 - 提出四级评测框架:长时预测(16秒视频连贯性分析)、单帧预测(2秒间隔的感知质量与语义一致性)、原子动作解构(关节级控制精度)、规划能力(反事实模拟选择最优动作序列) [11][12] 方法实现 模型架构与训练 - 输入编码:视频帧通过VAE编码器压缩为潜变量,动作向量按Xsens骨架标准化拼接 [16] - 扩散过程:基于DDPM框架,定义状态转移,损失函数融合简化损失与变分下界 [17][20] - 推理优化:自回归滚动物理动作序列,通过交叉熵法优化动作候选,注意力掩码限制跨帧交互提升推理效率 [20] 关键结果 全面超越基线 - PEVA在LPIPS(0.303)、DreamSim(0.193)、FID(62.29)上优于CDiT与Diffusion Forcing [19] - 长时预测中FID增长最缓,证明时序一致性优势 [19] 原子动作控制 - 手部运动预测误差比导航任务低15%(如右手下移DreamSim 0.248 vs. 前移0.329) [22] - 旋转动作预测仍是挑战(左转DreamSim 0.269),反映全局位姿建模难度 [22] 消融实验 - 上下文窗口从3帧增至15帧,DreamSim提升3%(0.199→0.193) [25] - 动作直接拼接比嵌入层更有效(DreamSim 0.193 vs. 0.202) [25] 规划应用 - 通过反事实模拟筛选动作序列,如排除走向水槽/户外的动作,选择打开冰箱的序列 [26] - 当前规划仅支持单臂12维控制,未实现全身协调 [26] 局限与展望 - 场景约束:依赖静态环境假设,动态物体交互未建模 [27] - 规划简化:仅基于图像相似度的开环优化,未整合高层语义目标 [27] - 计算开销:CDiT-XXL模型训练成本高,实时应用受限 [27] - 未来方向:结合物体中心表征提升交互真实性,探索闭环控制与多智能体协作 [27]