Workflow
LongCat APP
icon
搜索文档
美团开源LongCat-Image图像生成模型 专注中文场景与编辑功能
凤凰网· 2025-12-08 07:04
模型发布与开源 - 美团LongCat团队正式发布并开源图像生成与编辑模型LongCat-Image,模型参数规模为60亿(6B)[1] - 该模型旨在通过一套统一架构处理文本生成图像及自然语言指令编辑任务[1] - 模型已在GitHub平台开源,功能可通过LongCat APP或网页端(longcat.ai)体验[5] 模型架构与技术特点 - 采用文生图与图像编辑同源的混合骨干架构(MM-DiT+Single-DiT),并整合了视觉语言模型(VLM)条件编码器[2] - 模型支持通过文本提示生成图像,并可通过自然语言指令对图像进行多轮编辑,官方列举了包括对象添加/移除、风格迁移、背景替换、文本修改等在内的15类编辑任务[2] - 模型强调对中文文本生成的支持,声称能够处理标准汉字、生僻字及部分书法字体,并可根据场景自动调整字体、大小和排版[3] - 通过模型结构轻量化与训练策略优化,宣称可在消费级GPU上实现高效推理,并生成具有“摄影棚级”细节的图像[4] 性能评估数据 - 在图像编辑基准测试GEdit-Bench和ImgEdit-Bench中,LongCat-Image得分分别为7.60/7.64(中英文)和4.50,均达到开源模型中的领先(SOTA)水平[5] - 在中文文本渲染专项评测ChineseWord中,得分为90.7分[5] - 在文生图基础能力测试GenEval和DPG-Bench中,得分分别为0.87和86.8[5] 战略意义与行业影响 - 此次开源动作显示出公司在AIGC领域,特别是针对中文市场及复杂图像编辑需求的技术布局[5] - 开源策略有助于其吸引开发者生态,并在快速发展的图像生成领域建立影响力[5] - 官方表示,此次开源旨在支持从研究到商业应用的全流程,并邀请开发者参与共建[5]
美团宣布:图像生成模型LongCat-Image开源发布
新浪财经· 2025-12-08 05:49
公司动态 - 美团LongCat团队于12月8日宣布开源其最新研发的LongCat-Image模型 [1][2] - 该模型参数规模为6B(60亿),以紧凑设计在文生图与图像编辑核心能力上逼近更大尺寸的头部模型 [1][2] - 模型核心优势在于高性能模型架构设计、系统性的训练策略和数据工程 [1][2] - 模型采用文生图与图像编辑同源的架构,结合渐进式学习策略,在6B参数下实现了指令遵循精准度、生图质量与文字渲染能力的高效协同 [1][2] - 模型在图像编辑方面的“可控性”表现突出,性能突破关键在于一套紧密协同的训练范式和数据策略 [1][2] - 面向终端用户的“LongCat APP”同步迎来重大升级,全新上线图生图功能与24个零门槛玩法模板 [1][2] 产品与市场定位 - LongCat-Image模型为开发者与产业界提供了一个“高性能、低门槛、全开放”的全新选择 [1][2] - 升级后的LongCat APP让普通用户也能一键生成海报、精修人像,旨在实现“专业AI创作零门槛” [1][2]
美团新独立APP,点不了菜只能点AI
猿大侠· 2025-11-03 04:11
模型发布与性能 - 美团最新开源多模态大模型LongCat-Flash-Omni,支持文本、图像、音频、视频全模态输入,在Omni-Bench和WorldSense等基准测试中达到开源SOTA水平,性能可与闭源模型Gemini-2.5-Pro相媲美 [2] - 模型采用MoE架构,总参数量达560B,激活参数仅27B,实现“大总参小激活”,在保持庞大知识容量的同时具备极高的推理效率 [4] - 该模型是当前主流旗舰模型参数规模下,首个实现全模态实时交互的开源模型,交互体验丝滑,响应延迟极低 [8][28] 技术架构与创新 - 模型采用完全端到端的统一架构ScMoE,并创新性地使用分块式音视频特征交织策略,实现低延迟的实时语音生成与视觉响应 [40] - 通过渐进式早期多模融合训练和模态解耦并行(MDP)训练方案,有效提升多模态训练效率,模型上下文窗口扩展至128K tokens,支持超8分钟的音视频交互 [40][42] - 技术路径清晰:先打通底层速度实现即时响应,再深耕复杂场景的专业能力,最后向全模态拓展,解决了多模态融合难、实时交互性能受限等行业痛点 [38][39] 战略布局与投资逻辑 - 公司战略核心是软硬件“两条腿走路”,通过构建“世界模型”和投资“具身智能”,实现数字世界与物理世界的深度连接 [45][47] - 投资脉络清晰:2018-2020年聚焦消费领域以巩固本地生活护城河;2021年后科技投资占比显著提升,重点投向自动驾驶、AI芯片、具身机器人等核心基础设施 [54][55] - 目标是构建覆盖“低空—地面—社区”的立体化智能服务网络,将技术能力注入零售场景,关键词是autonomy(无人化),以实现系统效率跃迁 [57][61][62]
美团新独立APP,点不了菜只能点AI
量子位· 2025-11-03 03:12
LongCat-Flash-Omni模型技术特点 - 最新开源多模态模型LongCat-Flash-Omni在综合性全模态基准测试(如Omni-Bench, WorldSense)上超越Qwen3-Omni、Gemini-2.5-Flash,达到开源SOTA水准,并能与闭源Gemini-2.5-Pro相媲美[2] - 模型支持文本、图像、音频、视频等全模态能力,各项单项能力均位居开源模型前列,实现“全模态不降智”[3] - 采用MoE架构,总参数560B,激活参数仅27B,通过“大总参小激活”设计在保持庞大知识容量的同时实现极高推理效率,是首个在主流旗舰模型性能标准和参数规模下实现全模态实时交互的开源模型[4][8] 模型应用与交互体验 - 模型已在LongCat APP和Web端上线,支持文字/语音输入、语音通话,Web端还支持上传图片和文件,视频通话功能正在开发中[9][10] - 实测显示模型具备快速响应能力,从输入指令到生成第一个token的时间间隔短暂,交互过程丝滑,能即时处理复杂多模态任务[7][25][26] - 模型在聊天问答、语音识别、物理世界规则理解(如六边形小球弹跳问题)及嘈杂环境下的语音识别等场景中表现稳定,能准确接住并回答脑筋急转弯式推理题[17][24][27] 美团AI战略发展路径 - 公司迭代模型的逻辑清晰:速度优先(实现模型响应、语音识别、实时生成的丝滑体验),专业深耕(优化复杂逻辑推理、物理仿真等能力),全面拓展(向全模态路线推进)[29][31] - 通过投资和自研结合,公司布局“世界模型”与“具身智能”,目标是连接数字世界和物理世界,软件端构建能深度理解现实并交互的“世界模型”,硬件端围绕“具身智能”加速落地[42][44][47][48] - 公司投资脉络从早期聚焦消费领域转向加码科技投资,重点布局自动驾驶、AI芯片、具身机器人等未来核心基础设施,构建覆盖“低空—地面—社区”的立体化服务网络[53][54][57][61] 多模态技术突破与架构创新 - 模型在架构层面重构多模态融合底层逻辑,采用完全端到端的统一架构ScMoE,能同时接收文本、音频、图像、视频及任意组合的多模态输入[36][38] - 通过分块式音视频特征交织策略实现流式音视频处理,使音频与视频特征按时间片段同步输入LLM,支持低延迟实时语音生成与视觉响应,上下文窗口扩展至128K tokens,支持超8分钟音视频交互[38] - 训练上采用渐进式早期多模融合训练和模态解耦并行(MDP)方案,提升多模态训练效率,确保系统长期稳定运行,解决参数大但推理慢的行业痛点[38][39]