Workflow
美团发布并开源高效推理模型LongCat-Flash-Thinking
观察者网·2025-09-22 11:40

模型发布与性能表现 - 公司于9月22日正式发布高效推理模型LongCat-Flash-Thinking 该模型在保持极致速度基础上较9月1日发布的LongCat-Flash-Chat更强大专业 [1] - 模型在逻辑数学代码智能体等多领域推理任务中达到全球开源模型先进水平(SOTA) 部分任务性能接近闭源模型GPT5-Thinking [1] - 通用推理能力方面 在ARC-AGI基准测试中以50.3分超越OpenAI o3和Gemini2.5Pro等顶尖闭源模型 [1] 基准测试具体表现 - 在LiveCodeBench上以79.4分超越参与评估的开源模型 并与闭源模型GPT-5表现相当 [2] - 在OJBench基准测试中以40.7分接近Gemini2.5-Pro水平 [2] - 智能体能力方面 在τ2-Bench上以74.0分刷新开源SOTA成绩 在SWE-BenchBFCL V3和VitaBench等基准测试中展现竞争力 [2] 技术能力创新 - 扩展形式化定理证明能力 成为国内首个同时具备深度思考+工具调用与非形式化+形式化推理能力相结合的大语言模型 [2] - 训练过程疑似在国产加速卡上完成而非英伟达GPU 但硬件厂商具体名称未获官方证实 [2] 开源与平台部署 - 模型已在HuggingFace和Github平台全面开源 并在官网提供体验服务 [2]