公司产品发布 - 美团正式发布并开源图像生成模型LongCat-Image,这是一款参数规模为6B的模型,重点瞄准文生图与单图编辑两大核心场景 [2] - 该模型在图像编辑能力上达到开源SOTA水准,核心优化集中在“编辑可控性”和“中文文字渲染”两项能力上 [2] - 公司同步提供了多种使用方式,包括移动端的LongCat APP以及网页端入口,模型权重与代码已在Hugging Face和GitHub平台开源 [2] 模型技术架构与性能 - 模型采用文生图与图像编辑同源的统一架构,通过渐进式学习策略,在6B参数规模下兼顾指令遵循精准度、生图质量与文字渲染能力 [4] - 训练路线基于文生图中期训练模型初始化,并采用多任务联合学习机制来避免编辑能力在后训练阶段被压缩 [6] - 在GEdit-Bench、ImgEdit-Bench等多个编辑类基准测试中取得了开源SOTA成绩 [6] - 针对中文文字渲染,模型采用覆盖8105个规范汉字的合成字形数据进行预训练,并在SFT阶段引入真实世界文本图片,在ChineseWord评测中取得90.7分,领先于现有开源模型 [8] - 在人类主观评分维度上,LongCat-Image在文本对齐、视觉真实度与美学质量等多个子项中的表现已接近Seedream4.0等商业模型水平 [8] - 在图像编辑任务的并列对比评估中,LongCat-Image-Edit在综合质量与一致性两项关键指标上,对NanoBanana和Qwen-Image-Edit等模型均取得较高胜率 [11] - 整体来看,该模型在图像编辑任务上已逼近部分闭源模型水平,在文生图基础能力上也保持在开源头部阵营 [11] 模型实测表现与能力评估 - 在实际体验中,模型在连续改图、风格变化和材质细节上表现较好,能够保持角色结构稳定,完成多轮风格与材质的迁移 [12][16] - 在产品级渲染测试中,模型在多种现实光照场景下的质感表现相对稳定,细节表现准确,更接近商业产品渲染效果 [22] - 在电影海报生成场景中,模型对参考图的继承能力较为稳定,中英文主标题表现较为清晰,但在“小字”区域等复杂排版场景下,中文文字渲染仍存在不稳定性,会出现乱码与英文混杂的问题 [20] - 在涉及复杂UI设计、游戏界面生成等任务时,模型的审美暴露出短板,整体风格偏向陈旧,与当下主流游戏产品存在明显代差 [25] - 综合测试结果表明,模型在改图与产品渲染类任务中的可用性更高,而在游戏界面与复杂排版场景中的表现相对一般 [31] 行业竞争与战略定位 - 美团的LongCat-Image模型主要对标了Seedream4.0、Qwen-Image、HunyuanImage-3.0、Nano Banana以及FLUX.1-dev等主流开源与闭源生图模型 [2] - 公司并未试图用更大的参数规模正面冲击旗舰级生图模型,而是明确选择在可控性、连续编辑和中文渲染这几个方向上深挖 [32] - 图像模型的竞争焦点,正在快速向“能否真正进入设计、产品、品牌等具体生产流程”的实用能力集中 [32]
又一国产图像大模型开源,实测连续P图绝了,中文渲染是短板
36氪·2025-12-08 10:47