模型发布与市场反响 - 月之暗面开源发布新一代大模型Kimi K2 Thinking,引发全网广泛讨论[2] - 模型发布不到半天,官方推文阅读量达到170万,高热度导致服务器多次出现算力不足情况[10][19] - 该事件被行业专家称为又一次“DeepSeek时刻”,可能成为国产大模型发展的拐点[6][10] 模型性能与基准测试 - 模型在多项基准测试中表现达到SOTA水平,性能超越GPT-5、Claude Sonnet 4.5等先进闭源模型[3][5] - 在超难基准人类终极考试上,Kimi K2 Thinking取得44.9分,其Heavy版本分数可进一步提升至51%,超过Grok4、GPT-5、Claude 4.5等模型[11] - 模型在自主网络浏览能力、对抗性搜索推理、Agentic搜索、Agentic编程、写作和综合推理能力方面均有全面提升[10] 技术架构与成本优势 - 模型总参数量高达1万亿,其中激活参数为320亿,是迄今为止最大的开放权重模型之一[32] - 采用INT4权重量化技术,使生成速度提升约2倍,实现高性能低成本推理[13][32] - API定价具有显著优势,输入价格为百万token 0.15美元(缓存命中)/0.6美元(缓存未命中),输出为百万token 2.5美元,比GPT-5低一个数量级[15] - 解决同样问题时,准确率比Claude 4.5 Sonnet更高,成本仅为其六分之一[16] - 模型训练成本为460万美元[34] 核心功能特点 - 具备持续多轮“一边搜索一边思考”的能力,这是目前DeepSeek不具备的特色功能[13] - 作为首个推理模型,可执行200-300次连续工具调用,在数百个步骤中进行连贯推理[32] - 采用Agent驱动模式,基于多轮强化学习范式,模型行为根据与外界交互的反馈持续更新[38][39] 实际应用测试表现 - 在前端可视化测试中,使用p5.js创建动画效果惊艳且运行丝滑,而GPT-5在相同测试中直接罢工[22][23] - 在著名的“鹈鹕骑车”SVG测试中表现不佳[24][25] - 写作能力出色,能精准模仿林黛玉和王熙凤的风格创作吐槽文章[26][27][28] - 综合推理能力强,对复杂逻辑题能快速反应,推理过程严谨无误[29][30] 行业影响与开源策略 - 知名AI基准测试机构认为该模型位置可放在GPT-5之前,可能促使AI社区设计新基准[42][46] - 模型采用修改后的MIT许可证,授予完整商业和衍生权利,是目前授权最宽松的前沿模型之一[47] - 许可证附加条款要求月活跃用户超1亿或月收入超2000万美元的应用需在界面标注“Kimi K2”[48]
国产模型新盛况!王座易主:Kimi K2 Thinking开源超闭源
机器之心·2025-11-07 04:26