公司AI战略与模型发布 - 公司于2024年将集团战略从"Food+Platform"升级为"零售+科技",明确将AI、机器人、自动驾驶等作为未来核心方向 [7] - 公司在2024财年业绩发布会上正式明确AI战略,通过AI at Work、AI in Products、BuildingLLM三层架构推动技术落地 [8] - 公司LongCat团队在2024年9月至10月期间连续发布并开源三款大模型,包括大语言模型LongCat-Flash-Chat、高效推理模型LongCat-Flash-Thinking以及视频生成模型LongCat-Video [3] 大模型技术细节与性能 - 大语言模型LongCat-Flash-Chat采用混合专家模型架构,总参数5600亿,激活参数186亿至313亿,平均270亿 [3] - 视频生成模型LongCat-Video以统一模型在文生、图生视频基础任务上达到开源最先进水平,可稳定输出5分钟级别长视频且无质量损失 [2][3][4] - LongCat-Video模型参数为136亿,在文生视频、图生视频核心任务中综合性能达到开源最先进水平,在文本对齐度、运动连贯性等关键指标上展现显著优势 [5] 模型应用与内部推广 - 公司自研LongCat大模型结合外部模型为员工推出AI编程、智能会议、文档助手等工具,其API调用量占比从年初10%增长至68% [8] - 公司已上线多款AI应用,包括AI图像生成应用"妙刷"、餐饮推荐问答AI助手问小袋与米鲁、以及支持前端开发等功能的AI编程应用NoCode [8] - 视频生成模型被视为探索"世界模型"的第一步,未来将融入公司自动驾驶、具身智能等业务场景,连接"比特世界"和"原子世界" [7] 行业观点与外部反馈 - 有行业从业者认为公司开发视频生成模型不意外,因其自身有内容需求,且视频模型可为具身智能提供模拟数据 [5] - 有观点认为公司与大模型尤其是视频大模型没有必然联系,客户对视频生成的需求可能不大 [6] - 行业从业者指出评估模型能力可参考同行反馈,看其他公司在发布新模型时是否愿意与之对比 [5]
发布并开源视频生成模型,美团在AI赛道潜行