Moonlight
搜索文档
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
量子位· 2025-11-27 04:34
核心技术突破 - 月之暗面联合清华大学推出全新加速引擎Seer,旨在不改变核心训练算法的前提下,大幅提升大语言模型的强化学习训练速度 [1] - Seer框架通过其三大核心模块(推理引擎池、请求缓冲区、上下文管理器)和三项关键技术(分段生成、上下文感知调度、自适应分组推测解码)协同工作,从内存、调度、推理三个维度全面优化rollout效率 [9][10][11][20] - 该技术针对RL训练中耗时的生成阶段,解决了其固有的工作负载不均衡和长尾延迟问题,资源利用率较低 [6] 性能提升数据 - 实验结果显示,Seer在不同工作负载下,相比基线系统veRL,吞吐量提升74%至97% [3][23] - 在长尾延迟方面,Seer表现显著优于veRL,例如在Moonlight任务中,veRL最后10%请求耗时3984秒(占总时长约50%),而Seer仅需364秒,延迟降低85% [23] - 在Qwen2-VL-72B和Kimi-K2任务中,长尾延迟分别降低93%和75% [23][24] - 专项实验表明,Seer的上下文感知调度策略在吞吐量上可达到理想Oracle水平的95%,其长尾延迟仅为无上下文调度策略的13% [27][28] 公司融资与资本动态 - 月之暗面即将完成新一轮融资,融资金额高达数亿美元,完成后公司估值将提升至40亿美元 [32][33] - 公司正与IDG Capital等投资机构洽谈,潜在投资方包括现有股东腾讯 [36] - 预期本轮融资将于今年年底前完成,并计划在明年下半年启动IPO进程 [37]
Kimi Linear一作张宇:关于模型训练的一些感想
自动驾驶之心· 2025-11-06 00:04
模型架构创新 - 模型采用混合专家架构 将MoE稀疏度从8提升至32 显著增强模型容量[4] - 核心设计原则为线性注意力 具体实现为KDA方法 在GDN基础上融入GLA的细粒度门控[4] - 采用混合模型方案 KDA与MLA的层混合比例为3:1 该比例经消融实验证实为效率与性能最优解[5] - 循环公式中关键部分为Decay机制 通过数学表达式实现状态更新[4] 性能表现 - 在5.7T训练token和3B激活参数条件下 模型效果实现巨大提升 多项基准测试呈现显著优势[7] - 解码方面因KDA的KV缓存占用小 批量大小补偿后加速比达到6倍[8] - 在数学/代码类基准测试上受参数规模限制 但模型个性表现突出 具有小K2模型特质[8] - 实际使用体验与榜单成绩达成平衡 避免为追求分数牺牲用户体验[13] 训练过程 - 模型规模达48B MoE 训练量5.7T 采用分阶段扩展策略 从1B参数开始逐步验证性能[10][11] - 训练过程中发现关键参数需保持fp32精度 中途切换精度可能影响训练效果[12] - 后训练方案经过数十种数据配方尝试 最终形成成熟方案[13] - 采用严格的内科监控机制 任何明显性能差异都会触发回退至上一阶段[11] 技术路线定位 - 本次技术报告定位为技术验证 主要战场放在1T公平比较实验 为下一代K3模型铺垫[14] - 线性注意力技术路线逐渐收敛至Delta变体 同时稀疏注意力路线如NSA也受到关注[18] - 模型开源旨在推动混合模型实际落地 为行业提供新的技术启发[19] - 当前时间窗口适合线性注意力发展 因智能体应用需要32k+长上下文支持[17]