Workflow
字节突然开源Seed-OSS,512K上下文碾压主流4倍长度,推理能力刷新纪录
36氪·2025-08-21 03:55

模型发布与策略 - 字节跳动Seed团队在Hugging Face和GitHub发布Seed-OSS系列模型 采用Apache-2.0开源协议 可免费用于学术研究和商业部署 [2] - 模型命名呼应OpenAI的GPT-OSS系列 开源策略类似 未直接开源核心商业模型豆包 而是基于内部技术打造面向开源社区的版本 [2] 核心技术特性 - 原生支持512K上下文窗口 是主流开源模型DeepSeek V3(128K)的4倍 预训练阶段构建非后期插值实现 [3] - 引入"思考预算"机制 通过设定token数量控制模型思考深度 支持512至16K token的预算设置 [3] - 采用360亿参数稠密模型架构 非MoE 包含64层网络 隐藏层维度5120 词汇表大小155K [5][6] - 使用RoPE位置编码 GQA注意力机制 RMSNorm归一化和SwiGLU激活函数 [5][6] 性能表现 - 知识理解:MMLU-Pro达65.1分(超越Qwen2.5-32B-Base的58.5分) TriviaQA达82.1分 [7] - 推理能力:BBH基准测试87.7分 刷新开源模型记录 [7] - 数学能力:GSM8K达90.8分 MATH达81.7分 [7] - 代码能力:HumanEval达76.8分 MBPP达80.6分 [7] - 指令微调版本Seed-OSS-36B-Instruct在AIME24数学竞赛题达91.7分 仅次于OpenAI OSS-20B [8] - 训练数据效率:仅用12T token训练 低于同规模模型15T+的数据量 [9] 团队背景与开源生态 - 字节Seed团队成立于2023年 定位为打造业界最先进AI基础模型 覆盖大语言模型/多模态/AI基础设施 [10] - 已开源项目包括:8B代码生成模型Seed-Coder 多模态模型BAGEL 实验性语言模型Seed Diffusion 训练框架VeOmni 同声传译模型Seed LiveInterpret [12] - 提供两个版本基座模型:包含合成指令数据版本(性能更强)和不包含版本(更纯净)供研究社区选择 [6]