模型开源与架构 - 小红书hi lab团队开源文本大模型dots.llm1,采用MIT许可证 [1] - 模型为中等规模MoE架构,激活参数量14B,总参数量142B,上下文长度32K [2] - 采用decoder-only Transformer架构,FFN替换为MoE模块,保持经济成本的同时提升能力 [4] 训练数据与方法 - 预训练使用11.2T高质量真实数据,未采用合成数据,性能达Qwen2.5-72B水平 [2] - 采用三阶段数据处理方法:文档准备、基于规则处理、基于模型处理 [4] - 开发轻量级网页清理模型和200类别分类器平衡数据比例,增加知识性内容比重 [4][5] - 使用AdamW优化器和warmup-stable-decay学习率计划,训练中逐步增加批量大小 [5] - 采用UtK策略扩展上下文至32K,通过片段重组训练模型重构能力 [5] 训练效率与成本 - 训练框架基于内部Cybertron,集成1F1B交错式通信和计算重叠方案 [6] - 每万亿tokens训练仅需13万GPU小时,Qwen2.5 72B需34万GPU小时 [7] - 完整预训练消耗146万GPU小时,仅为Qwen2.5 72B的1/4 [7] 微调与性能表现 - 收集40万指令调优实例,聚焦多语言对话、知识问答、复杂指令和数学编码推理 [9] - 微调分两阶段:指令样本重采样与多轮对话拼接处理,拒绝采样微调增强特定领域能力 [10][12] - 中文任务表现突出:CLUEWSC得分92.6,C-Eval得分92.2,MATH500得分84.8 [10] - 英文基准测试表现稳定全面,与Qwen2.5/Qwen3系列具有竞争力 [10] 团队发展与愿景 - hi lab由原大模型技术与应用产品团队升级组成 [11] - 组建"AI人文训练师"团队,融合人文背景研究者与AI专家提升AI人文素养 [13] - 目标拓展人际智能、空间智能等多维智能形式,使AI成为人类自然有益的伙伴 [13]
小红书hi lab首次开源文本大模型,训练资源不到Qwen2.5 72B 的四分之一
AI前线·2025-06-06 08:30