Workflow
Kimi K2官方技术报告出炉:采用384个专家,训练不靠刷题靠“用自己的话再讲一遍”
量子位·2025-07-22 06:39

Kimi K2模型技术亮点 - 采用MoE架构,总参数1T,激活参数32B,包含384个专家,每层激活8个,通过稀疏设计优化计算效率 [4][16] - 创新使用MuonClip优化器,结合Muon的token效率与QK-Clip稳定性,支持15.5万亿token无损失spike预训练 [11][21][22] - 引入MLA(Multi-head Latent Attention)结构替代传统密集注意力,每层注意力头降至64个,减少计算量和带宽压力 [16][17] 训练数据与方法 - 预训练数据覆盖网页、代码、数学、知识四大板块,采用"重述法"提升token效用,用重写10次的数据训练1轮(28.94%准确率)优于原始数据训练10轮(23.76%) [24][25][26] - 数学类文本改写成"学习笔记"风格并加入多语言翻译,知识类文本通过多样化表述增强理解 [28] - 后训练阶段通过大规模Agentic Tool Use数据合成,覆盖3000多真实工具和20000多合成工具,生成多轮工具使用轨迹 [35] 强化学习与性能表现 - 构建可验证奖励环境(如GitHub PR/issue自动化测试)和自我评估奖励机制,形成闭环优化 [33][34][36] - 采用温度衰减策略和PTX辅助损失,平衡探索与稳定性,避免知识遗忘 [43] - 在SWE Bench Verified、Tau2等测试中达到开源模型SOTA,上线一周即登顶竞技场千人盲评,媲美Grok 4和GPT 4.5 [5][12] 基础设施与行业动态 - 训练依托NVIDIA H800集群,节点配备2TB内存,8块GPU通过NVLink/NVSwitch互联,节点间采用8×400 Gbps RoCE网络 [38][39] - 阿里通义Qwen3最新版本(Qwen3-235B-A22B-2507)通过分训Instruct/Thinking模型提升质量,官方测评显示其性能反超Kimi K2 [40][41]