Workflow
多模态扩散大语言模型
icon
搜索文档
比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性
机器之心· 2025-05-22 08:46
核心观点 - 大型语言模型在多模态任务中面临架构统一性与后训练方法的挑战,传统自回归架构存在跨模态协同效率低下问题 [1] - Gemini Diffusion首次验证扩散模型在文本建模领域的潜力 [1] - MMaDA作为首个系统性探索扩散架构的多模态基础模型,通过三项核心技术突破实现文本推理、多模态理解与图像生成的统一建模 [1] 模型性能 - 文本推理:MMLU准确率68.4%,超越LLaMA-3-8B、Qwen2-7B、LLaDA-8B [7] - 多模态理解:POPE(86.1 vs 85.9)、VQAv2(76.7 vs 78.5)与专用模型持平 [7] - 图像生成:CLIP Score达32.46,较SDXL、Janus提升显著,文化知识生成任务准确率提升56% [7] 技术突破 - 统一扩散架构:将文本与图像生成统一到扩散框架中,消除传统混合架构复杂性 [15] - 混合长链思维微调:解决复杂任务冷启动问题,提出跨模态混合CoT微调策略 [15] - 统一推理格式:定义特殊标记结构强制模型输出跨模态推理步骤 [18] - 统一策略梯度优化:UniGRPO算法使奖励值稳定上升,收敛速度提升40% [19][21] 开源信息 - 已开源训练、推理、MMaDA-8B-Base权重和线上Demo [4] - 后续将开源MMaDA-8B-MixCoT和MMaDA-8B-Max权重 [4] - 论文、代码、模型和Demo地址已公开 [6] 跨任务协同 - 在混合训练阶段(130K-200K步),文本推理与图像生成指标同步上升 [9] - 扩散模型无需额外微调即可泛化到补全与外推任务 [11] - 支持文本补全、视觉问答补全和图像补全三类跨模态任务 [14]