ReMoMask

搜索文档
1句话高质量生成游戏3D动作,北大新方法刷新动画制作SOTA
量子位· 2025-08-08 07:23
ReMoMask团队 投稿 量子位 | 公众号 QbitAI 在游戏开发工作室中,动画师常常面临这样的困扰:为了让角色能更自然的"走路""转圈",不得不反复微调骨骼或者逐帧手动摆出几十个姿 势。 如果只需一句指令,比如"一个人走两步,然后跳起来",就能自动生成流畅逼真的3D动作,动画制作的方式将被彻底改写。 为此,北京大学提出了 ReMoMask:一种全新的基于检索增强生成的Text-to-Motion框架 。它是一个集成三项关键创新的统一框架:(1) 基于动量的双向文本-动作模型,通过动量队列将负样本的尺度与批次大小解耦,显著提高了跨模态检索精度;(2)语义时空注意力机制,在 部件级融合过程中强制执行生物力学约束,消除异步伪影;(3)RAG-无分类器引导结合轻微的无条件生成以增强泛化能力。 基于MoMask的RVQ-VAE,ReMoMask在最少步骤内高效生成时间连贯的动作。 在标准基准测试上的大量实验表明,ReMoMask达到了最先进的性能, 与之前的SOTA方法RAG-T2M相比,在HumanML3D和KIT-ML上分 别实现了3.88%和10.97%的FID分数提升 。 ReMoMask整体架构 问题 ...