Kimi K2 Thinking模型
搜索文档
在这个开源「从夯到拉」榜单,我终于明白中国 AI 为什么能逆袭
新浪财经· 2025-12-17 14:25
文章核心观点 中国开源大模型在2024年至2025年间实现了全球范围内的领导地位,以DeepSeek、Qwen、Kimi、智谱和MiniMax为代表的国产模型,在性能、价格、生态和可用性等维度上快速逼近甚至超越闭源巨头,正在改变全球AI行业的格局和运行规则 [3][5][116] 全球开源模型排名与格局演变 - 根据AI研究员Nathan Lambert等人的排名,全球开源模型前五名均为中国公司:DeepSeek、Qwen、Kimi、智谱和MiniMax,而OpenAI仅位列第四梯队,Meta的Llama仅获荣誉提名 [3][114] - 2024年曾是Llama主导的天下,但到2025年,国产开源模型已成为全球开发者的默认选择,持续刷新行业选项 [5][116] - 在Hugging Face的热门模型趋势榜上,前四名均为国产开源模型 [86][89] 主要中国开源模型厂商及其技术亮点 - **DeepSeek**:通过混合注意力等机制显著降低成本,打开了高效推理的突破口 [29][98] - **Qwen(阿里巴巴)**:凭借庞大的生态规模,覆盖从4800亿参数到6亿参数的各种尺寸模型,以及视觉语言、代码编写等多领域,几乎渗透整个开源市场 [23][131] - **Kimi(Moonshot AI)**:2025年11月发布万亿参数的混合专家模型Kimi K2 Thinking,采用交错思考技术,一次性能执行300次工具调用,在多个榜单上超越GPT-5和Claude 4.5 [11][122][135] - **MiniMax**:2025年10月底发布MiniMax M2混合专家模型,在综合榜单排名第五,超越Gemini 2.5 Pro和Claude Opus 4.1,其API定价为每百万输入/输出token 0.3美元/1.2美元 [14][124][127][185] - **智谱(Zhipu AI)**:发布GLM系列模型,如GLM-4.5和GLM-4.6,丰富了国产开源生态 [9][10][120] 国产开源模型的竞争优势与市场反馈 - **性能与成本**:国产模型在保持高性能的同时,具备极具竞争力的价格,例如MiniMax M2的价格仅为Anthropic Sonnet模型的1/12 [127][185] - **开发者认可**:海外社交媒体上广泛认可国产模型“好用、便宜”,成为小公司和副业项目的开发首选 [14][124] - **企业应用**:爱彼迎CEO公开表示,中国的开源模型Qwen比OpenAI更适合其实际工作,且更便宜 [25][134] - **具体能力展示**:实测显示,MiniMax M2能一次性生成功能齐全的棋类应用或网站,在处理包含20714个岗位、大小10MB的Excel数据时也表现出色 [16][18][30][35][138][141] 技术路径选择:全注意力与高效注意力之争 - MiniMax M2选择了传统的“全注意力机制”,而非当前流行的稀疏或高效注意力机制,主要原因是全注意力在工业级系统中的性能和可靠性仍然更高 [38][75][144][181] - 高效注意力机制(如线性、稀疏注意力)的核心目标是节省有限的计算资源,但其在复杂推理任务中可能存在隐藏缺陷,且相关基础设施尚不成熟 [41][44][57][147][150][163] - 随着上下文长度需求增长和GPU算力增速放缓,高效注意力的优势未来可能显现,但当前阶段,在质量、速度、价格三角中寻求平衡是关键 [62][75][168][181] 国产开源崛起的驱动因素与行业影响 - **内部竞争与算力限制**:国内模型厂商众多、竞争激烈,且面临算力紧张、芯片受限的困境,开源成为共享算力、避免重复建设、吸引开发者的有效策略 [93] - **构建完整生态**:各厂商通过不同的技术路线(如DeepSeek的成本控制、Qwen的生态规模、MiniMax的智能体能力)共同构建了一个庞大而完整的开源系统,形成了合力 [29][84][97][98] - **改变全球格局**:国产开源模型已成为全球AI生态的底座,全球小团队使用Qwen微调、用DeepSeek做推理基座、用MiniMax做智能体验证已成为常态,导致全球开源生态中心向中国倾斜 [98][109] - **数据佐证**:a16z数据显示,国产开源模型的累计下载量已超过美国模型,且领先优势持续扩大;斯坦福大学2025年AI指数报告也预示国产开源性能将超过闭源和美国模型 [95][97]
月之暗面又“亮”了?
北京商报· 2025-12-09 14:26
公司近期动态与战略澄清 - 月之暗面总裁张予彤近期公开露面,系统阐述Kimi在模型性能、智能体产品和底层创新上的进展,厘清公司战略为“不做泛娱乐、不追多模态、不参与同质化竞争” [1] - 公司在2024年第四季度动作频频,包括上线Kimi For Coding包月套餐、发布支持“边思考边调用工具”的Kimi K2Thinking模型,并被曝出筹备IPO消息 [1] - 张予彤的回归被视为具有象征意义,表明公司已不再受此前与投资方争议的影响,其目前负责公司整体战略与商业化 [5] 技术理念与性能突破 - 公司认为真正突破性研究在工程化前不依赖海量算力,并引用案例称AlexNet仅使用两块GPU,当前训练瓶颈是“数据墙”而非算力本身 [2][3][4] - 公司的Kimi K2模型实现了使用同一份数据效率至少提升两倍,在2025年10月的评估中,其加权平均值与GPT 5几近重合 [4][6] - 公司强调底层技术创新以及与上层的联合优化是其核心竞争优势,专注于大模型层、逻辑层、Agent层及生产力、复杂任务链路 [8] 市场定位与产品策略 - 公司现阶段不看重用户规模,已放弃与豆包拼投放的策略,差异化竞争方式是“不竞争”,找到自身擅长领域 [7][8] - 产品端刻意不做生活娱乐和多模态生成,更专注于需要长程规划、复杂工具调用且能创造更高经济价值的任务,如深入研究、PPT、数据分析、网站开发 [8] - 在C端应用流量上,2025年9月Kimi的月活跃用户为967万,排名第五,PC网页端月活用户为1103万,排名第八 [7] 商业化进展 - C端商业化主要面向算力密集型的深度研究等智能体任务,普通对话模式免费,提供三种不同的包月套餐,OK Computer等高级功能需额外购买 [9] - B端变现通过API调用,目标用户明确,Perplexity(AI搜索领域用户量最大、估值最高的公司)接入了其唯一的中国模型Kimi K2 Thinking,此外YouWare、Vercel、Genspark、Flowith等公司也选择了K2模型 [10] - 公司被分析师认为变得更加聚焦,从政策、证券环境和技术浪潮看,其在2026年推动上市符合天时地利人和 [11] 行业竞争格局 - 2024年1月至2025年10月期间,国内大模型性能曲线向上扬起,其中阿里的Qwen 2、深度求索的DeepSeek R1以及月之暗面的Kimi K2是转折点 [6] - 在原生AI应用月活排名中,豆包和DeepSeek分别以1.72亿和1.45亿月活用户位列第一、第二,远超Kimi的967万 [7] - 行业观点认为,只要公司技术有优势、主营业务向上发展且大模型热潮未终结,其面临的纠纷是可以克服的 [5]
20cm速递|科创创业ETF(588360)盘中涨超1.8%,科技竞赛打开估值上限
每日经济新闻· 2025-12-09 09:52
计算机与AI行业技术进展 - 行业新模型密集落地,AI竞争进入“强推理+原生多模态”阶段 [1] - 月之暗面发布的Kimi K2 Thinking模型显著提升推理和工具使用能力 [1] - Google的Gemini 3实现多模态突破 [1] - DeepSeek-V3.2在推理类测试中达到GPT-5水平 [1] 电子与AI算力行业趋势 - Scaling law依旧有效,多模态和Agent模型推动AI算力需求增长 [1] - PCB需求有望维持高增长 [1] - 产能释放和产品结构优化将推动业绩非线性提升 [1] 人形机器人产业发展 - 产业从概念验证迈向商业化落地 [1] - 关键零部件和整机企业或迎来戴维斯双击 [1] 科技产业投资策略 - 康波周期下的科技竞赛继续打开估值上限 [1] - AI链端侧增长稳健 [1] - 应用侧关注ToB端商业化落地 [1] 科创创业50指数及ETF产品 - 科创创业ETF(588360)跟踪的是科创创业50指数(931643) [1] - 该指数单日涨跌幅达20% [1] - 指数从科创板与创业板中选取市值较大、流动性好的50只新兴产业股票作为样本 [1] - 样本覆盖信息技术、新能源、生物医药等核心领域 [1] - 指数样本侧重科技属性强、成长性高的企业,行业分布均衡 [1] - 指数旨在反映中国前沿产业相关上市公司证券的整体表现 [1]
多行业联合人工智能 12 月报:科技竞赛打开估值上限-20251208
华创证券· 2025-12-08 13:01
核心观点 - 策略核心:当前正处于康波周期下的科技竞赛阶段,参考90年代美股互联网牛市,中国科创板块的估值上限仍有继续打开的空间[3][14] “十五五”规划首次提出“抢占科技发展制高点”,政策聚焦于卡脖子领域(如集成电路、工业母机)和未来产业(如量子科技、具身智能)[3][14] - AI产业链:端侧硬件(如苹果链、机器人链)增长稳健可持续,应用侧当前应重点关注ToB端的商业化落地[3][15] 从PEG和资本开支两个视角筛选,显示器、计算机硬件、半导体设备、PCB、光学元件、集成电路封测、电子终端品等行业值得重视[3][16] - 行业动态:11月人工智能板块整体表现偏弱,CS人工智能指数下跌3.5%,人工智能指数下跌4.0%[22] 但板块估值仍处于历史中等偏上水平,如CS人工智能指数10年PE分位为71%[23] 策略观点 - 估值空间:参考1995-2000年美国互联网牛市,信息技术板块估值在康波周期上行中普遍创下新高,中国当前科创估值上限打开程度与彼时仍有差距,整体估值或仍有上行空间[3][14] 例如,在上一轮牛市中,思科、微软等公司PE提升倍数显著(如思科从8.2倍升至31倍)[18] - 政策导向:“十五五”规划明确要抢占科技发展制高点,具体方向包括突破集成电路、工业母机等卡脖子领域核心技术,以及培育量子科技、具身智能等未来产业[14][19] - 投资视角: - PEG视角:筛选26年预测净利润增速分位高于当前PE分位的TMT三级行业,包括显示器、计算机硬件、半导体设备、游戏、物联网、电信应用、消费电子零部件等[16][20] - 资本开支视角:筛选资本开支/折旧摊销力度大于1.5且26年预测净利润增速大于30%的行业,包括半导体材料/设备、光学元件、显示器、PCB、集成电路封测、电子终端品等[16][21] 电子行业 - 行业景气:Scaling law依旧有效,多模态和Agent模型不断推出,推动AI算力需求加速向上[3][33] 英伟达FY26Q3营收达570亿美元,同比增长62%,并已锁定Blackwell与Rubin平台相关的5000亿美元营收可见度[38][39] - 投资建议:AI基础设施仍处早期,PCB需求有望维持高增长[33][40] PCB产业链重资产属性强,产能释放与产品结构优化可推动业绩非线性提升,应关注产能储备充足、受益新技术发展的标的[33][40] 推荐景旺电子、东山精密、胜宏科技、工业富联、生益电子、生益科技、沪电股份和鹏鼎控股等[33][40] 计算机行业 - 竞争阶段:新模型密集落地,AI竞争进入“强推理+原生多模态”阶段[3][33] - 重点模型: - 月之暗面Kimi K2 Thinking:11月6日发布并开源,采用混合专家架构,总参数量1万亿,支持256K上下文窗口,在多项基准测试中超越GPT-5等闭源模型[34][41] 其API定价具有竞争力,输入价格仅为每百万tokens 0.15美元(缓存命中)[42] - 谷歌Gemini 3:11月19日发布,以1501分登顶LMArena排行榜,并推出增强推理的Deep Think模式[34][43][44] - 谷歌Nano Banana Pro:11月20日发布,实现文本到图像生成的原生多模态突破,支持4K分辨率输出[34][45] - DeepSeek V3.2:12月1日发布,其标准版推理能力达GPT-5水平,Speciale长思考增强版在IMO、ICPC等国际竞赛中斩获金牌[34][46][47] 传媒行业 - 长期观点:长期看好AI产品应用落地及商业化进度加速[3][35] - 关注方向:建议关注AI Agent(生产力方向)、AI陪伴(泛娱乐方向)、AI多模态(音视频、3D)、AI教育(付费意愿高)及AI端侧等方向[35][57] - 重点公司动态: - 阿里巴巴:通义千问Qwen3-Max上线深度思考模式,并开源高效图像生成模型Z-Image[51] - 快手:可灵2.6全量上线,支持“音画同出”,并发布数字人2.0版本[54] - 字节跳动:豆包手机助手与中兴通讯达成合作,引发市场关注,中兴通讯A股当日涨停(+10%)[56] - 投资建议:建议关注阿里巴巴、腾讯控股、阜博集团、快手、美图等标的[35][57][59] 人形机器人行业 - 投资逻辑:以基本面为锚,寻找估值弹性,产业正从概念验证迈向商业化落地[3][36] - 市场审美:对细分方向的偏好排序为:增量零部件 > 特斯拉相关供应链 > 国产机器人供应链 > 丝杠 > 其他零部件 > 设备 > 场景,反映了市场对“确定性”与“弹性”的权衡[36][62] - 行情回顾:自2023年以来,人形机器人指数共经历五次主要行情,均与特斯拉Optimus进展、国内厂商入局及产业链扩产等催化密切相关[62] 汽车行业 - 核心事件: - 智驾量产:全球首搭地平线HSD及征程6P的星途ET5于11月28日上市,售价14.99万元,标志着顶级智驾底座进入规模化部署阶段[37][63] - 公司上市:文远知行与小马智行相继于11月登陆港交所[37][70] 小马智行港股IPO募资额(绿鞋后)可达77亿港元,成为2025年全球自动驾驶行业最大IPO[65][70] - 业务进展:小马智行Q3财报显示,其第七代Robotaxi在广州实现单车盈利转正,日均订单达23单/辆[65] 文远知行Q3 Robotaxi业务营收3530万元,同比增长7.61倍[66] - 投资建议: - 整车:重点推荐吉利汽车(低估值修复),关注比亚迪,并重点推荐江淮汽车(新品多、弹性大)[37] - 智驾:推荐地平线机器人,关注禾赛科技、速腾聚创、小马智行等[37] - 机器人:推荐拓普集团、敏实集团、银轮股份、双环传动等[37] 精选组合 - 华创证券人工智能研究中心12月精选组合为:上游-生产工具:卓易信息;上游-算力基础:景旺电子、地平线机器人;下游-端侧硬件:恒立液压、信捷电气;下游-场景应用:阿里巴巴[4][11]
张予彤以月之暗面总裁身份出席活动,与金沙江纠纷或已解决
钛媒体APP· 2025-12-08 11:54
公司人事与治理动态 - 张予彤近期以“月之暗面总裁”身份对外活动,负责公司整体战略、商业化及融资,并参与新产品开发[2] - 月之暗面官方未就张予彤是否正式就任总裁一事作出回应[2] - 张予彤在月之暗面内部地位持续上升,不仅深度参与战略,还被媒体多次称为“联合创始人”,如今获得“总裁”头衔,表明其进入公司核心层未受法律限制[3] 公司融资与资本规划 - 月之暗面正与IDG资本、腾讯等机构洽谈新一轮美元融资,投前估值约40亿美元,融资规模预计达6亿美元[3] - 若谈判顺利,此轮融资将是继2024年8月3亿美元融资后的又一里程碑[3] - 本轮融资领投方为IDG资本,腾讯、五源资本、今日资本等原有股东参与跟投[3] - 公司计划在完成本轮融资后,于2026年下半年启动IPO[3] 公司技术与产品进展 - 月之暗面发布的Kimi K2 Thinking模型以460万美元的超低训练成本,刷新了DeepSeek的训练成本记录[4] - 该模型在一些开源模型排行榜上超越了GPT-5,一度登顶全球第一[4] 历史纠纷与仲裁事件 - 2023年2月,杨植麟等人决定设立月之暗面,并与循环智能CEO陈麒聪等商定“分拆”方案,该方案包括循环智能无偿获得月之暗面9.5%股权等,但仅为口头协议,未形成书面文件[7] - 2024年1月,循环智能董事会就月之暗面成立作出书面决议,9名董事(含张予彤)均签字同意,但据朱啸虎后期表达,该决议未取得所有股东书面同意[7] - 2024年4月,张予彤被金沙江创投开除,朱啸虎发现张予彤持有月之暗面约16%的创始股(900万股)[8] - 2024年11月11日,金沙江创投联合循环智能老股东在香港对杨植麟及张宇韬提起仲裁,指控月之暗面分拆损害循环智能及其股东利益,要求补偿近1亿美元[8] - 2024年12月5日,朱啸虎公开指责张予彤“隐瞒利益冲突”,违反董事信义义务及基金管理人受托责任[8] - 2024年12月6日,杨植麟发文承认张予彤为月之暗面联合创始人,并称其加入月之暗面与其他事件相互独立[8] - 2024年12月15日,有信息称若月之暗面未获循环智能老股东豁免或被起诉,其股东将要求公司估值降低10%[9] 公司发展历程与股权结构 - 月之暗面公司于2023年4月17日成立,杨植麟等人为创始人,张予彤丈夫汪箴显名持有少量股权[7] - 2023年6月,红杉和真格基金等循环智能老股东投资月之暗面,但金沙江创投等机构因不看好大模型发展而放弃投资[7] - 2024年2月至5月,阿里巴巴、腾讯、美团等机构先后投资月之暗面,公司估值达30亿美元[8] - 月之暗面的股东结构中包含了张予彤的个人资源,如阿里巴巴、趣加科技、小红书[8] 关联公司背景 - 2016年5月30日,杨植麟与陈麒聪、张宇韬成立循环智能[5] - 2019年10月29日,金沙江创投投资循环智能,张予彤主导投资并担任循环智能董事[6] - 2020年2月,张予彤升任金沙江创投主管合伙人[7]
月之暗面估值或达40亿美元,或于明年下半年IPO
搜狐财经· 2025-11-24 07:42
融资动态 - 公司正与IDG资本、腾讯等机构洽谈新一轮美元融资,融资规模预计达6亿美元,投前估值约40亿美元 [2] - 本轮融资由IDG资本领投,腾讯、五源资本、今日资本等原有股东参与跟投 [2] - 若融资顺利,这将是公司继2024年8月3亿美元融资后的又一里程碑 [2] 上市计划 - 市场传闻公司计划在完成本轮融资后,于2026年下半年启动IPO [2] - 公司官方否认了“明年下半年IPO”的具体时间表,但有知情人士表明其上市筹备已在进行中,正在评估纽交所、港交所双重上市的可能性 [3] 技术实力与产品 - 公司发布的Kimi K2 Thinking模型训练成本为460万美元,刷新了DeepSeek的训练成本记录,并在一些开源模型排行榜上超越了GPT-5 [2] - 斯坦福大学AI实验室评测显示,Kimi在复杂多轮对话中的连贯性得分比GPT-5低18个百分点 [2] 财务与估值对比 - 公司2023年营收约2.1亿元人民币,营收主要来自B端API调用与定制化解决方案 [3] - 公司40亿美元的估值上限,相当于其美国同行OpenAI(5000亿美元估值)的1/125 [3] - 纵向对比国内同行,其38亿美元的投前估值已超过大多数垂直领域独角兽,跻身中国AI赛道第一梯队 [3] - 此轮融资后,公司将成继MiniMax和智谱后第三家估值超300亿元人民币的国产大模型厂商 [3] 行业背景 - 同为中国“AI四小龙”之一的MiniMax已于7月秘密提交港股招股书,智谱AI亦在遴选承销商,预示中国AI新晋独角兽或将逐步开启上市潮 [3] - 公司站在40亿美元估值的新起点,其IPO征程在中美科技博弈的关键时刻,每一步动向都将牵动全球AI产业的神经 [3]
“千问恐慌”背后:全球AI价值正在重估
环球时报· 2025-11-21 22:45
中国AI大模型产业格局与竞争态势 - 中国AI市场从“百模大战”迈入差异化竞争新阶段,DeepSeek、豆包、Kimi、千问、文心等模型成为国内外媒体常客[1] - 阿里巴巴正式宣布“千问”项目进入AI to C市场,计划将地图、外卖、办公、学习、购物、健康等各类生活场景接入千问APP[3] - 科技巨头和初创企业都在追求打造“国民级”AI应用,爆发窗口期预计在2026年下半年至2027年中期开启[10] 技术能力与性能表现 - 百度发布原生全模态文心大模型5.0,支持文本、图像、音频、视频等多种信息的输入与输出[3] - 豆包大模型日均Tokens调用量已突破30万亿,相比今年5月底增长超80%[3] - 中美顶级AI大模型性能差距大幅缩至0.3%,接近抹平[15] - 中国大模型用美国同行10%的算力成本实现其90%甚至95%的性能[16] - 谷歌Gemini 3 Pro模型超越GPT-5.1登顶智力指数榜单,月之暗面Kimi K2 Thinking模型排名第三[18] 商业化应用与市场拓展 - 千问APP展现出强大办事能力,几秒钟即可完成研究报告并制作成精美PPT[3] - MiniMax的AI视频生成平台“海螺AI”受全球超200个国家和地区用户欢迎,已帮助创作超3.7亿个视频[7] - 技术焦点集中在“系统2”思维能力的构建,让AI具备逻辑推理、自我反思和纠错能力[17] - 许多AI应用首月用户流失率高达80%-90%,产品需要从“好玩”进化为“有用”[10] 国际化进展与全球影响 - 中国AI模型凭借创新力和成本优势加速“出海”,全球开发者转向中国开源系统[11][13] - 千问累计下载量达3.85亿次,超越Meta的Llama系列(3.46亿次)[13] - 近期发布的新语言模型中超过40%基于千问架构[13] - 风险投资家查马斯·帕里哈皮蒂亚透露合作企业已转而使用月之暗面的Kimi K2模型[12] - 爱彼迎客服助手依赖十余种AI模型,阿里巴巴千问系列占据主导地位[12] 产业发展趋势与战略差异 - 中国企业战略侧重点在于“铺地”,争夺场景渗透率和推理成本[17] - 美国企业战略侧重点在于“封顶”,堆叠算力集群验证缩放定律[17] - 美国主流企业采取闭源策略,中国主流企业多采取开源策略[16] - 中国优势在于丰富的工业与消费场景数据及工程落地能力[17] - 美国优势在于先进GPU集群和顶尖算法科学家[17] 未来发展方向 - 真正的爆发点要等待端侧AI硬件渗透率突破30%[10] - 未来18个月是各类垂直应用残酷的淘汰赛[10] - 中国AI“走出去”需要通过差异化的地缘政治经济策略实现[18] - 潜在黄金场景在于东盟、中东及共建“一带一路”国家[18] - 输出路径应从“单一产品”转向“主权AI”解决方案[18]
AI搜索应用Perplexity上线Kimi K2 Thinking模型
凤凰网· 2025-11-18 07:50
公司动态 - 月之暗面Kimi K2 Thinking模型被AI搜索应用Perplexity接入 成为唯一被接入的国产模型[1] - 同批被接入的还有OpenAI刚发布的GPT-5.1模型[1] - 更早之前 Cherry Studio Cline CoStrict Cursor Genspark Kilo Code Kortix Suna RooCode Trae Vercel Visual Studio Code Windsurf YouWare等AI应用均已接入Kimi K2系列模型[1] 公司表现 - Perplexity自2022年成立以来实现爆发式增长 拥有3000万月活跃用户[1] - 公司估值突破200亿美元 是全球估值最高的AI搜索应用[1] 行业影响 - Perplexity开创了对话式"答案引擎"这一全新品类[1] - 通过提供基于最新网络信息并附带清晰引用来源的即时答案 改变了很多用户获取和研究信息的方式[1]
国产大模型在多项基准测试中超越GPT-5
21世纪经济报道· 2025-11-15 10:00
文章核心观点 - 月之暗面发布Kimi K2 Thinking模型,在多项基准测试中表现超越GPT-5,引发全球AI社区关注 [1] - 公司通过优秀的工程优化能力,在算力资源相对有限的条件下实现模型性能的极致压榨 [6] - 开源策略助力中国AI大模型获得更广泛的国际认可,并在全球开发者中快速普及 [8] 模型性能表现 - Kimi K2 Thinking模型在HLE测试中获得44.9%的成绩,超过GPT-5的41.7% [3] - 在BrowseComp基准测试中以60.2%的得分领先GPT-5的54.9% [3] - 在SEAL-0测试中以56.3%的得分超过GPT-5的51.4% [3] - 模型能够连续执行200至300次工具调用来解决复杂问题,保证任务连续性 [4] - 采用端到端的智能体强化学习训练,使模型在数百个步骤的工具调用过程中保持良好性能 [4] 技术架构与优化 - 模型基于"模型即Agent"理念训练,原生掌握"边思考、边使用工具"的能力 [3] - 采用原生INT4量化技术,对MoE组件应用INT4纯权重量化,生成速度提升约2倍 [6] - 使用配备Infiniband的H800 GPU集群,在算力规模不占优势的情况下实现极致性能压榨 [6] - 团队优先考虑绝对性能而非代币效率,后续会将效率纳入奖励机制 [6] 市场表现与行业影响 - Kimi K2的API价格仅为Claude Sonnet的五分之一,展现出显著性价比竞争力 [8] - 在OpenRouter近一周模型调用榜单前二十中,中国模型已占据七席 [8][9] - Kimi K2与Grok4登上增长榜前两名,日处理量突破100亿Token [8] - 当Cursor禁止中国IP调用Claude后,Kimi K2调用量大幅攀升 [8] 未来发展计划 - 团队正计划在K3中引入重大的架构变革,KDA实验性架构很可能在K3中使用 [10] - KDA在实验中表现出色,在所有评估维度上都展现出性能提升 [10] - 公司表示将在OpenAI建成千亿级美元数据中心之前推出K3模型 [10]
国产大模型在多项基准测试中超越GPT-5
21世纪经济报道· 2025-11-15 09:49
模型性能表现 - Kimi K2 Thinking模型在HLE测试中获得44.9%的成绩,超过GPT-5的41.7% [3] - 在BrowseComp基准测试中以60.2%的得分领先GPT-5的54.9% [3] - 在SEAL-0测试中以56.3%的得分超过GPT-5的51.4% [3] - 模型能够连续执行200至300次工具调用来解决复杂问题,保证任务连续性 [4] - 通过端到端的智能体强化学习训练,使模型在数百个步骤的工具调用过程中保持良好性能 [5] 技术架构与优化 - 模型基于"模型即Agent"理念训练,原生掌握"边思考、边使用工具"的能力 [3] - 采用原生INT4量化技术,对MoE组件应用INT4纯权重量化,使得生成速度提升约2倍 [8] - 选择INT4是为了更好地兼容"非Blackwell GPU",同时利用现有的INT4推理marlin内核 [8] - 团队使用配备Infiniband的H800 GPU集群,在算力规模不占优势条件下将每张显卡性能压榨到极致 [7][8] - 下一代K3模型计划引入KDA实验性架构,该线性注意力模块在所有评估维度都展现出性能提升 [12] 市场影响与竞争格局 - Kimi K2的API价格仅为Claude Sonnet的五分之一,展现出显著性价比竞争力 [10] - 在OpenRouter近一周模型调用榜单前二十名中,中国模型已占据七席 [10][11] - Kimi K2与同期发布的Grok4登上增长榜前两名,日处理量突破100亿Token [10] - 公司坚持开源策略,认为开源是促进团结而非分裂的事情 [10] - 从欧洲到北美,从亚洲到非洲,越来越多开发者正在调试基于Kimi K2 Thinking的应用 [10]