报告行业投资评级 未提及 报告的核心观点 - Movie Gen音视频两手抓,模型效果亮眼,Meta正式进入视频生成赛道,打造2种基础模型并衍生出另外2种模型 [3][9] - 多模态大模型架构与训练方法持续创新,向实现应用落地大幅迈进,“文本控制生成”将融入创意工作流,“文本+UI”模式将长期持续,高质量数据及处理对模型训练起决定性作用,未来算力基础和技术创新都很重要 [3] - 投资建议关注英伟达、AMD等与Scaling Law相关的公司,以及Adobe、万兴科技等音视频创意类赛道公司 [3][52] 根据相关目录分别进行总结 Movie Gen:音视频两手抓,模型效果亮眼 - 2024年10月4日Meta团队发布论文介绍Movie Gen模型,在多个任务取得显著成果,与其他模型竞争,打造2种基础模型并衍生出另外2种模型 [9] Meta四个模型的原理与训练方法 视频生成模型:创新模型架构实现高效训练 - Movie Gen Video是300亿参数基础模型,用于联合文本到图像、视频生成,在约1亿个视频和10亿张图像上预训练 [10] - 训练分低分辨率T2I预训练、联合低分辨率图像和视频预训练、高分辨率微调三个主要步骤 [19] - 采用TAE+Flow Matching+Transformer架构提升训练和推理效率,对文本提示处理分UL2、Long - prompt MetaCLIP、ByT5三部分 [20] - 使用多达6144个H100 GPU训练,采用3D并行,利用多种并行性实现高效训练 [21] - TAE用于编码视频和图像,优化目标函数提高生成质量和效率,解决“斑点”伪影问题 [22] - Movie Gen采用流匹配作为训练目标,比传统扩散模型更高效,各模块架构和生成质量有显著优势 [25][28] 音频生成模型:生成与画面和情绪匹配的动效声、环境声 - Movie Gen Audio是130亿参数基础模型,用于视频和文本到音频生成,在约100万小时音频上预训练,可生成长连贯音频 [13] - 采用基于流匹配的生成模型和扩散Transformer架构,增加调节模块,选择流匹配因训练和推理效率及性能更好 [32] - 逐帧添加视觉和音频特征改善视频 - 音频对齐,训练数据学习不同层次关系,训练结果净胜率优于对比模型 [34][35] 个性化视频模型:用于生成特定人像的微调模型 - 基于30B的Movie Gen Video模型,输入参考人像和个性化文本实现个性化视频输出,训练策略包括预训练和高质量微调 [37] - PT2V生成人物身份正确性和面部一致性优于此前SOTA模型,微调模型在多方面胜出 [40] 可编辑视频模型:无需大量监督视频数据实现模型训练 - Movie Gen Edit创新训练策略,无需大量监督数据实现出色编辑效果,基础架构基于视频生成模型改动 [42] - 视频训练分三个阶段,克服“训练—测试”不一致性问题,编辑效果显著优于其他视频编辑模型 [42][46] Meta论文发布带来的四点启示 - Movie Gen系列模型打开AI应用落地新想象空间,创意生成和编辑市场有新发展,“文本+UI”控制方式或成主流 [48] - 模型架构创新无止境,“流匹配+最优传输+纯Transformer”生成效率和质量优于DiT [49] - 高质量数据及处理对多模态大模型训练起决定性作用 [49] - “Scaling Law”成立,技术和方法创新也重要,未来算力基础和技术创新不矛盾 [50][52] 投资建议 - Scaling Law持续发挥效力,建议关注英伟达、AMD、博通等公司 [52] - 音视频创意类赛道大有可为,建议关注Adobe、万兴科技、美图公司等 [52]
MetaMovieGen的论文告诉我们什么?
财通证券·2024-10-20 08:03