Workflow
多模态生成与理解
icon
搜索文档
Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解
机器之心· 2025-11-16 04:01
核心观点 - 上海人工智能实验室推出的Lumina-DiMOO模型,通过创新的离散扩散架构,实现了多模态生成与理解任务的高效统一,在生成速度和质量上相比传统自回归模型有显著突破 [2][11][25] 技术架构创新 - 模型采用离散扩散建模框架,打破了文本生成图像、图像编辑、图像理解等多模态任务间的壁垒,实现了全栈能力闭环 [2][12] - 通过并行化的双向注意力机制和灵活的采样策略,实现了跨任务的高效融合,加速了生成过程并提升了生成质量 [9][12][17] - 采用全局优化策略,通过联合损失函数优化整体性能,确保模型在多个任务间无缝切换的高效统一和多任务能力 [18] 性能优势 - 相比传统逐token生成的自回归模型,Lumina-DiMOO通过并行生成方式大幅加快了推理过程,解决了图像生成需要几分钟的瓶颈 [7][15] - 模型在生成质量上表现优异,特别是在高分辨率生成时能保证图像的精细度和细节表现力,克服了自回归模型的缺陷 [7][11] - 引入Max-Logit缓存技术,通过缓存高置信度token避免重复计算,显著提升了生成效率和速度,并降低了计算成本 [20] 自我强化能力 - 模型整合了全新的自我强化框架Self-GRPO,将图像生成和多模态理解整合进强化学习轨迹,实现了生成-推理-校正的闭环 [22][23] - 该框架使模型具备自主反思能力,能在生成中学会理解,在理解中反哺生成,成为一个智能体雏形 [22][26] 行业地位与评测表现 - 在多项权威评测中夺魁,包括在腾讯混元维护的UniGen Bench上获得开源模型第一名 [29] - 在GenEval评测中综合得分0.88,超越GPT-4o、BAGEL、Janus-Pro等顶尖模型 [29] - 在语义一致性、布局理解、属性绑定、推理等维度全面领先 [29]