美团LongCat-Video-Avatar发布并开源,重点提升动作拟真度
公司技术发布 - 美团LongCat团队于12月18日正式发布并开源虚拟人视频生成模型LongCat-Video-Avatar [1] - 新模型基于此前开源的LongCat-Video基座构建 [1] - 模型支持通过音频、文本或图像生成虚拟人视频,并具备视频续写功能 [1] 模型性能与技术创新 - 模型重点提升了动作拟真度、长视频生成稳定性与身份一致性 [1] - 通过“解耦无条件引导”技术使虚拟人在语音间歇也能呈现眨眼、调整姿势等自然状态 [1] - 针对长视频生成画面质量退化问题,提出“跨片段隐空间拼接”策略,旨在避免重复编解码带来的累积误差 [1] - 模型声称可支持生成长达5分钟的视频并保持画面稳定 [1] - 在身份一致性方面,采用了带位置编码的参考帧注入与“参考跳跃注意力”机制,以在保持角色特征的同时减少动作僵化 [1] 模型评测表现 - 在HDTF、CelebV-HQ等公开数据集的评测中,该模型在唇音同步精度与一致性指标上达到当前先进水平 [1] - 在涵盖商业推广、知识教育等场景的综合测试中表现领先 [1]