国产模型新盛况！王座易主：Kimi K2 Thinking开源超闭源

模型发布与市场反响 - 月之暗面开源发布新一代大模型Kimi K2 Thinking，引发全网广泛讨论[2] - 模型发布不到半天，官方推文阅读量达到170万，高热度导致服务器多次出现算力不足情况[10][19] - 该事件被行业专家称为又一次“DeepSeek时刻”，可能成为国产大模型发展的拐点[6][10] 模型性能与基准测试 - 模型在多项基准测试中表现达到SOTA水平，性能超越GPT-5、Claude Sonnet 4.5等先进闭源模型[3][5] - 在超难基准人类终极考试上，Kimi K2 Thinking取得44.9分，其Heavy版本分数可进一步提升至51%，超过Grok4、GPT-5、Claude 4.5等模型[11] - 模型在自主网络浏览能力、对抗性搜索推理、Agentic搜索、Agentic编程、写作和综合推理能力方面均有全面提升[10] 技术架构与成本优势 - 模型总参数量高达1万亿，其中激活参数为320亿，是迄今为止最大的开放权重模型之一[32] - 采用INT4权重量化技术，使生成速度提升约2倍，实现高性能低成本推理[13][32] - API定价具有显著优势，输入价格为百万token 0.15美元（缓存命中）/0.6美元（缓存未命中），输出为百万token 2.5美元，比GPT-5低一个数量级[15] - 解决同样问题时，准确率比Claude 4.5 Sonnet更高，成本仅为其六分之一[16] - 模型训练成本为460万美元[34] 核心功能特点 - 具备持续多轮“一边搜索一边思考”的能力，这是目前DeepSeek不具备的特色功能[13] - 作为首个推理模型，可执行200-300次连续工具调用，在数百个步骤中进行连贯推理[32] - 采用Agent驱动模式，基于多轮强化学习范式，模型行为根据与外界交互的反馈持续更新[38][39] 实际应用测试表现 - 在前端可视化测试中，使用p5.js创建动画效果惊艳且运行丝滑，而GPT-5在相同测试中直接罢工[22][23] - 在著名的“鹈鹕骑车”SVG测试中表现不佳[24][25] - 写作能力出色，能精准模仿林黛玉和王熙凤的风格创作吐槽文章[26][27][28] - 综合推理能力强，对复杂逻辑题能快速反应，推理过程严谨无误[29][30] 行业影响与开源策略 - 知名AI基准测试机构认为该模型位置可放在GPT-5之前，可能促使AI社区设计新基准[42][46] - 模型采用修改后的MIT许可证，授予完整商业和衍生权利，是目前授权最宽松的前沿模型之一[47] - 许可证附加条款要求月活跃用户超1亿或月收入超2000万美元的应用需在界面标注“Kimi K2”[48]