核心技术与架构 - 采用完全独立的纯解码器Transformer架构 从参数初始化开始完全独立训练 提供20亿和70亿参数两个版本[4] - 规避预训练模型的授权限制和固有偏差 架构设计不受限制[4] - 选择SBER-MoVQGAN作为图像分词器 在MS-COCO数据集上实现最优重建质量[7] 多任务处理能力 - 创新采用统一图像分词方案 通过上下拼接将图生图任务视为单张图像 实现多任务训练与文生图的一致性[9] - 单一模型支持文生图、主体驱动生成、图像编辑、可控生成和密集预测五大任务[9] - 在Graph200K多任务基准测试中表现优异 证明纯自回归模型在单一框架下完成多模态生成任务的可行性[17] 推理优化策略 - 采用模型量化技术 将权重量化为4位整数同时保持激活张量为bfloat16 通过PyTorch 2.0原生编译工具实现优化[13] - 运用推测式Jacobi采样 通过静态KV缓存和静态因果注意掩码方案兼容静态编译框架 实现加速采样[13] - 优化后减少60% GPU显存消耗 通过并行解码显著提升生成效率[13] 性能表现对比 - 文生图任务中GenEval分数达0.80 与顶级生成模型相当 在"两个物体"测试中达0.92分 "颜色属性"测试中达0.72分[14][15] - 70亿参数版本在DPG综合评分达84.30分 超越Janus-Pro-7B的84.19分和Infinity的83.46分[15] - 在可控生成任务中Canny条件F1分数达0.49 深度条件RMSE为17.42 显著优于ControlNet等对比模型[19] 未来发展计划 - 重点优化采样时间长的问题 提升用户体验[21] - 计划从多模态生成扩展至多模态理解 增强整体功能性和性能[21]
Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
机器之心·2025-08-12 00:15