Workflow
没想到,最Open的开源新模型,来自小红书
机器之心·2025-06-07 03:59

模型发布与开源 - 小红书开源首个自研大模型dots llm1 由人文智能实验室团队研发 是行业最大开源力度之一[3][4][8] - 开源内容包括完整模型checkpoint 预训练各阶段模型 长文base模型及详细训练参数 支持开发者二次创作[8][9] - 模型开源地址包括Hugging Face和GitHub平台 便于社区获取和使用[15] 模型架构与规模 - 采用MoE混合专家架构 总参数量142B 激活参数14B 属于中等规模模型[5] - 在多项基准测试中表现亮眼 仅用14B激活参数即达到与32B-72B参数模型相近的性能[6][43] - 具体性能表现:英文MMLU得分82 1 数学MATH得分85 0 中文C-Eval得分92 2 代码HumanEval得分88 4[7] 训练数据与处理 - 使用11 2T高质量token数据 来源于Common Crawl和自有Spider抓取的web数据[28] - 通过三层数据处理工序:web文档准备 规则过滤 模型协同判断 确保数据质量优于开源TxT360数据[28][29][30][31] - 未使用合成语料 完全依赖高质量真实数据训练[32] 技术创新与优化 - 与NVIDIA合作开发interleaved 1F1B with A2A overlap方案 通过计算掩盖通信时间提升训练效率[33][35] - 优化Grouped GEMM实现 使前向计算效率提升14 00% 反向计算提升6 68%[38] - 采用WSD学习率调度 分稳定训练和退火两阶段 批量大小从64M逐步增至128M[40] 微调与性能表现 - 使用40万条高质量指令数据 覆盖多轮对话 知识问答 指令遵循 数学推理 代码生成五大场景[42] - 微调分两阶段:全量数据基础训练和重点领域拒绝采样微调 提升模型推理性能[45] - 在弱智吧测试 中文绕口令 藏头诗创作 代码生成等实际任务中展现强大理解与执行能力[13][17][22][23][24] 行业意义与定位 - 小红书自2023年起投入基础模型研发 此次开源标志其正式加入开源社区对话[10] - 中国开源模型在HuggingFace榜单已占半壁江山 开源成为行业集体共识[46] - 模型具备与Qwen2 5-32B Instruct Qwen2 5-72B Instruct及Qwen3-32B竞争的实力[6][43]