MuonClip优化器
搜索文档
杨植麟回复:Kimi K2训练用的H800!但“只花了460万美元”嘛…
量子位· 2025-11-11 11:11
文章核心观点 - Kimi K2 Thinking模型以显著低于行业水平的训练成本(传闻约460万美元)实现了卓越性能,其开源策略和工程创新正在引发硅谷开发者和企业从闭源模型向该模型的迁移潮 [1][5][13][14] 训练成本与行业影响 - 传闻Kimi K2 Thinking训练成本约为460万美元,低于DeepSeek V3的约560万美元,但公司澄清此非官方数据,并指出训练成本因包含大量研究和实验而难以精确计算 [1][13] - 低成本高性能的开源模型引发市场对闭源巨头高估值的反思,并可能推动对月之暗面公司的价值重估 [14][15] 技术架构与工程创新 - 模型架构继承并优化了DeepSeek等开源成果,将MoE层专家数量从256个增至384个以扩大知识容量,同时将每次推理激活参数量从约370亿降至320亿以降低推理成本 [16] - 词汇表从129K扩大至160K,并减少了MoE前的密集前馈网络块,进一步优化计算效率 [16] - 采用自研MuonClip优化器,在15.5万亿token的训练过程中实现了零训练崩溃,无需人为干预重启 [18] - 采用量化感知训练方案,实现原生INT4精度推理,在提升推理速度约2倍的同时将性能损失降至最低 [21] 市场反响与性能表现 - 硅谷投资人Chamath Palihapitiya将其新公司AI负载迁移至Kimi K2,原因是其性能更强且价格便宜得多 [6] - 云端开发平台Vercel CEO内部测试显示,Kimi K2比闭源模型快5倍,准确率高50% [8] - Claude Code用户相互传授将模型切换为Kimi K2的设置方法 [9] 公司未来规划与产品路线 - 下一代K3模型可能采用实验性混合注意力机制KDA,在同等条件下性能优于采用RoPE的模型,且速度更快、效率更高 [24] - 将很快推出类似Claude Code的Kimi Code产品,视觉语言模型正在开发中 [27] - 承认K2 Thinking思考过程过长、效率较低,下一版会将简化思考过程写入奖励函数 [27] - 曾尝试1M上下文窗口但因服务成本过高而搁置,未来会重新考虑更长的上下文窗口 [27]
K2开源大模型,会是Kimi的DeepSeek时刻吗?
虎嗅· 2025-07-14 03:20
中国AI开源模型发展 - MoonShot最新开源大模型K2总参数规模达到万亿级别(1T),是目前开源模型中最大的,激活参数320亿 [2] - K2在基准测试SWE Bench Verified(编程)、Tau2(智能体)中仅次于Claude 4 Opus,在AceBench(工具调用)中仅次于GPT-4.1 [2] - K2官方API服务与DeepSeek的R1相当,但最大支持上下文长度(128K)高于R1(64K) [2] - K2发布后成为HuggingFace上热度第一的开源模型,新兴云厂商NovitaAI与Parasail已将其托管上线 [4] - Perplexity首席执行官Aravind Srinivas在内部测试后决定尽快对K2展开后训练 [4] 中国AI公司竞争格局 - 中国本土AI公司竞争激烈,MiniMax与MoonShot相互竞争,先后发布多款开源模型 [5] - MoonShot已披露融资总额约15亿美元,远低于硅谷同行 [6] - MoonShot比DeepSeek更早推动"执行"以更低成本落地,冲击AI应用的消费市场和企业市场 [7] - K2兼容OpenAI和Anthropic的API格式,凭借更高性价比可能赢得硅谷AI应用开发者市场 [7] MoonShot技术创新 - K2架构采用更少注意力头、更多专家,提高长上下文效率和每个token处理效率 [8] - MoonShot自研MuonClip优化器计算效率是AdamW优化器的2倍 [8] - MoonShot在MuonClip优化器中融入自研QK-Clip技术解决MaxLogit爆炸问题 [10][11] - MoonShot重视底层创新,曾提出MoBA(混合块注意力)架构 [11] MoonShot产品布局 - MoonShot拥有形式推理模式Kimina-Prover-72B、编程模型Kimi-Dev-72B、深度研究智能体Kimi-Researcher等多款产品 [12] - K2的智能体能力得益于大量Agentic合成数据和通用强化学习手段 [12] - MoonShot团队具有文艺特质,公司名来源于平克·弗洛伊德的专辑 [13]