Kimi K2 Thinking突袭!智能体&推理能力超GPT-5,网友:再次缩小开源闭源差距
量子位·2025-11-07 01:09

模型核心能力与定位 - 模型定位为“模型即Agent”,是迄今能力最强的开源思考模型,具备边思考边使用工具的能力,无需人工干预即可执行200-300次连续工具调用 [1] - 作为今年最受关注的开源模型系列之一,其发布被认为再次缩小了开源模型与闭源模型的差距 [3] - 模型代码和权重遵循最为宽松的MIT协议,已上线官方网站和手机应用,API可通过开放平台访问 [10] 技术架构与性能 - 模型采用1TB参数,激活参数为32B,使用INT4量化而非FP8,拥有256K上下文窗口 [5] - 通过测试时扩展技术,同时扩展思考Token和工具调用轮次,实现了更强的Agent和推理性能 [11] - 采用INT4纯权重量化,支持原生INT4推理,将生成速度提升了约2倍,且对国产加速计算芯片更友好 [30][31][32] 基准测试表现 - 在人类最后的考试中,允许使用工具的情况下取得了44.9%的SOTA成绩 [12] - 在智能体工具使用基准²-Bench Telecom中,性能从73%提升至93%,达到SOTA水平 [14][15] - 在测试自主网络浏览能力的BrowseComp基准上,以60.2%的成绩成为新的SOTA模型,远超人类平均智能29.2%的分数 [18] 自主搜索与复杂任务处理 - 模型具备长程规划和自主搜索能力,可借助上百轮的“思考→搜索→浏览→编程”动态循环,持续提出并完善假设、验证证据和进行推理 [20] - 能够将模糊且开放式的问题分解为清晰、可执行的子任务 [21] - 在第三方测试中,通过23次推理和工具调用成功解决了博士级别数学问题 [14] 编程与开发能力 - 在SWE-Multilingual、SWE-bench验证集和LiveCodeBench等编程基准测试中,能与GPT-5、Claude Sonnet 4.5等最强闭源模型竞争 [22] - 在处理HTML、React及组件丰富的前端任务时性能有明显提升,能将创意转变为功能齐全、响应式的产品 [24] - 在Agentic Coding场景中,能调用各种工具同时进行思考,灵活融入software agents处理复杂、多步骤的开发工作流,例如复刻真实可用的Word文字编辑器或创造voxel art作品 [24][25][27] 通用基础能力升级 - 创意写作能力显著提升,能将粗略灵感转化为清晰、动人且意图明确的叙述,驾驭微妙文风差异并在长篇中保持风格连贯性 [28] - 学术与研究能力增强,在分析深度、信息准确性和逻辑结构方面有显著提升,擅长处理学术论文、技术摘要和长篇报告 [28] - 回应个人或情感类问题时更富同理心,能提供细致入微的观点和切实可行的建议 [28]