Workflow
SpecForge
icon
搜索文档
超大模型推理加速2.18倍!SGLang联合美团技术团队开源投机采样训练框架
量子位· 2025-07-26 09:01
开源框架SpecForge - SGLang团队联合美团搜推平台、Cloudsway.AI开源专为超大模型设计的投机采样训练框架SpecForge [1] - 该框架基于Eagle3技术,是首个支持超大模型投机采样训练并开箱即用的框架,与SGLang推理引擎深度集成 [5] - 针对当前开源社区缺乏支持超大尺寸模型训练且与SGLang深度结合框架的痛点 [6] 技术特性 - 集成最先进的投机采样方法Eagle3,通过轻量级草稿模型预测目标模型token分布实现高接受率和性能提升 [7] - 原生支持主流模型架构包括复杂MoE层和Transformer变体 [7] - 采用FSDP和TP并行策略实现GPU集群高效扩展,显著降低大规模训练内存开销 [7][14] - 创新性封装训练时测试(TTT)架构,通过模拟多步生成增强模型健壮性 [9] - 提供在线与离线双重训练模式,动态调整隐藏状态收集策略 [10][17] 性能表现 - 在320K样本数据集上为LLaMA 4训练的草稿模型实现2.18倍推理加速 [15] - 在MT-Bench等行业标准基准测试中表现出色,验证与Eagle3架构的兼容性 [15] - 通过bench_speculative脚本可针对不同硬件调优出最佳性能参数 [16] 应用场景 - 适用于Kimi K2、Qwen Coder等超大型开源模型的推理效率提升 [4] - 在线模式适合快速实验和存储有限场景,离线模式保证实验可复现性 [17] - 未来计划支持更多模型架构包括Kimi K2、Qwen-3 MoE及视觉-语言模型 [22] 资源获取 - GitHub仓库提供完整源代码包括TTT实现细节 [20] - Hugging Face提供LLaMA 4 Scout和Maverick预训练模型 [20]