MMaDA

搜索文档
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 01:59
Google I/O 2025开发者大会与Gemini Diffusion - Google DeepMind推出采用扩散技术的语言模型Gemini Diffusion,提供更强控制力、创造力和文本生成速度[1] - Gemini Diffusion生成速度达到最快模型的五倍,采样速度高达每秒1479 token[2][8] - 该模型在多项基准测试中表现优异,如HumanEval(89.6%)、MBPP(76.0%)等,性能媲美更大规模的自回归模型[9] 扩散语言模型(dLLM)发展历程 - 早期探索包括斯坦福Diffusion-LM(2022)、上海AI实验室DiffuSeq(2022)和复旦大学DiffusionBERT(2022)[3] - 蚂蚁集团与人大团队推出首个8B参数扩散大模型LLaDA,性能比肩LLaMA3[4] - LLaDA成为dLLM研究基础模型,衍生出d1、LaViDa等后续模型[4][20] LLaDA模型技术特点 - 采用掩码扩散机制,通过前向加噪和反向去噪过程建模[14] - 预训练使用2.3T tokens,在MMLU(65.4%)、BBH(57.6%)等基准表现优异[19] - 1.5版本引入VRPO方法,在GSM8K(+4.7)、Math(+0.4)等任务取得进步[21][22] 扩散多模态LLM(dMLLM)进展 - 蚂蚁集团与人大推出LLaDA-V,集成视觉指令微调与掩码扩散机制[24] - 字节跳动开发MMaDA,兼具文本推理、多模态理解和文生图能力[31] - dMLLM正向蛋白质序列生成等更多模态扩展[33] 行业竞争格局 - 国内研究团队(蚂蚁、字节、人大等)在dLLM/dMLLM领域已跻身第一梯队[11] - 国际竞争者包括Google(Gemini Diffusion)、Meta(d1模型)等[6][8] - 初创公司Inception Labs推出商业级扩散模型Mercury[6] 技术发展趋势 - 扩散模型正从视觉生成扩展到语言理解和多模态交互[35] - 研究热点包括模型加速(Fast-dLLM)、推理增强(LLaDOU)等方向[6] - 量子计算与扩散模型结合(qdLLM)等创新方向正在探索[35]
比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性
机器之心· 2025-05-22 08:46
核心观点 - 大型语言模型在多模态任务中面临架构统一性与后训练方法的挑战,传统自回归架构存在跨模态协同效率低下问题 [1] - Gemini Diffusion首次验证扩散模型在文本建模领域的潜力 [1] - MMaDA作为首个系统性探索扩散架构的多模态基础模型,通过三项核心技术突破实现文本推理、多模态理解与图像生成的统一建模 [1] 模型性能 - 文本推理:MMLU准确率68.4%,超越LLaMA-3-8B、Qwen2-7B、LLaDA-8B [7] - 多模态理解:POPE(86.1 vs 85.9)、VQAv2(76.7 vs 78.5)与专用模型持平 [7] - 图像生成:CLIP Score达32.46,较SDXL、Janus提升显著,文化知识生成任务准确率提升56% [7] 技术突破 - 统一扩散架构:将文本与图像生成统一到扩散框架中,消除传统混合架构复杂性 [15] - 混合长链思维微调:解决复杂任务冷启动问题,提出跨模态混合CoT微调策略 [15] - 统一推理格式:定义特殊标记结构强制模型输出跨模态推理步骤 [18] - 统一策略梯度优化:UniGRPO算法使奖励值稳定上升,收敛速度提升40% [19][21] 开源信息 - 已开源训练、推理、MMaDA-8B-Base权重和线上Demo [4] - 后续将开源MMaDA-8B-MixCoT和MMaDA-8B-Max权重 [4] - 论文、代码、模型和Demo地址已公开 [6] 跨任务协同 - 在混合训练阶段(130K-200K步),文本推理与图像生成指标同步上升 [9] - 扩散模型无需额外微调即可泛化到补全与外推任务 [11] - 支持文本补全、视觉问答补全和图像补全三类跨模态任务 [14]