Workflow
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
机器之心·2025-05-27 03:23

核心观点 - 中国人民大学高瓴人工智能学院与蚂蚁集团合作推出LLaDA-V,这是首个纯扩散多模态大语言模型(MLLM),挑战了自回归模型在多模态领域的主导地位 [1] - LLaDA-V基于前期发布的LLaDA扩散模型拓展至多模态,采用视觉编码器(SigLIP 2)和MLP连接器实现多模态对齐,全程采用离散扩散机制 [2] - 模型在11项多模态任务中超越自回归基线LLaMA3-V,并在MMMU等多学科知识基准上展现更强数据可扩展性 [5] - 纯扩散架构性能达到SOTA,显著缩小与顶尖自回归模型Qwen2-VL的差距(MMStar基准60.1 vs 60.7) [8][10] 技术架构 - 采用"视觉编码器+MLP投影器+语言模型"经典架构,视觉特征通过SigLIP 2提取并映射至LLaDA嵌入空间 [15] - 创新性使用双向注意力机制,消融实验证明其优于对话因果注意力机制 [15] - 训练时仅对回复部分随机掩码,损失函数聚焦掩码区域;推理采用反向去噪过程,结合低置信度重掩码策略提升生成质量 [15] 性能表现 - 多模态理解任务中超越混合架构(如MetaMorph、Show-o)和纯扩散模型,达到当前最佳性能 [8] - 尽管LLaDA-8B纯文本能力弱于LLaMA3-8B,但LLaDA-V在多模态任务中反超,证明扩散架构的独特优势 [5] - 在MMMU等需要复杂推理的基准上,数据可扩展性显著优于自回归模型 [5] 应用场景 - 成功实现复杂视觉场景理解,如精准描述阿尔卑斯山景的层次感与空间关系(绿色小路、行人、教堂、薄雾群山等细节) [13] - 支持多轮多模态对话,通过掩码扩散机制生成连贯回复 [15] 开源计划 - 团队预计近期开源训练推理代码及模型权重 [3] - 项目已发布论文(arXiv:2505.16933)和代码仓库(GitHub/ML-GSAI/LLaDA-V) [6]