SGLang

搜索文档
首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合
量子位· 2025-09-27 01:30
SGLang团队 投稿 量子位 | 公众号 QbitAI 开源框架实现100%可复现的稳定RL训练! 下图是基于Qwen3-8B进行的重复实验。 两次运行,一条曲线,实现了结果的完美重合,为需要高精度复现的实验场景提供了可靠保障 。 这就是 SGLang团队联合slime团队 的最新开源成果。 近期,Thinking Machines Lab (由 OpenAI 前 CTO Mira Murati 创立) 发布了一篇文章——《克服LLM推理中的不确定性》,指出问题的 核心在于 缺乏批次不变性 (batch invariance)。 自从这篇博客发布后,业界反响热烈,一直期待开源推理引擎能实现稳定可用的确定性推理,或者更进一步,实现完全可复现的RL训练。而 现在,SGLang和slime一起给出了答案。 SGLang团队在Thinking Machines Lab发布的批次不变算子基础之上,通过定制一系列注意力算子和采样逻辑, 实现了完全确定性推理 。 该实现同时保持与 分块预填充 (chunked prefill)、CUDA Graph、Radix Cache 和非贪婪采样 (non-greedy sampl ...
最受欢迎的开源大模型推理框架 vLLM、SGLang 是如何炼成的?
AI科技大本营· 2025-09-24 02:01
文章核心观点 - 大语言模型推理阶段是决定模型实用性和广泛采用的关键 需要高效处理延迟、吞吐量和成本约束[2][3] - vLLM和SGLang作为领先的开源推理引擎项目 通过创新内存管理技术和优化调度设计显著提升推理性能[4][8][12] - 两个项目均起源于学术研究 现已发展为社区驱动的开源标杆 获得业界广泛采用和投资机构支持[7][16][31][34] 项目技术特性 - vLLM采用PagedAttention算法 借鉴操作系统分页缓存管理技术 实现精细化内存管理 官方测试显示比Hugging Face Transformers后端提升30倍吞吐量[8][9] - SGLang以RadixAttention为核心 重用过往请求的KVCache 在前缀匹配时大幅减少Prefill阶段计算量 即使关闭RadixAttention仍保持优秀性能[12] - 两者均支持Continuous Batching、Chunked Prefill、Speculative Decoding等先进特性 在功能算法层面日趋同质化[29] 社区发展数据 - vLLM于2023年6月开源 截至2025年8月获56,045星标 9,578分叉 1,465贡献者 12,393名社区参与者[15] - SGLang于2024年1月发布 同期获17,095星标 2,697分叉 638贡献者 2,754名社区参与者 规模不及vLLM五分之一[13][15] - 两项目中国开发者占比显著 vLLM达33% SGLang高达52% 社区活跃度高但待处理issue均超2000条[9][13][37] 学术与产业关联 - 项目核心发起人Woosuk Kwon(vLLM)和Lianmin Zheng(SGLang)均来自加州大学伯克利分校 师从Spark和Ray创建者Ion Stoica[16] - vLLM贡献主力来自Red Hat SGLang贡献主力来自xAI、Skywork、Oracle和LinkedIn 194名开发者在两项目间交叉贡献[18][19][20] - OpenAI工程师comaniac在vLLM提交77个代码请求 在SGLang提交17个请求 2024年3月后活跃度降低引发行业猜测[20] 性能演进历程 - vLLM在2024年9月发布v0.6.0 通过CPU调度优化实现2.7倍性能提升和5倍延迟下降 但架构复杂性导致增长放缓[23][25] - 2025年1月vLLM推出V1重构版本 结合DeepSeek V3/R1发布 与SGLang同步进入第二轮爆发式增长[21][25] - 性能竞争白热化后 双方转向强调可复现方法和真实工作负载端到端指标 鼓励第三方独立评测[26] 生态合作与投资 - a16z的Open Source AI Grant基金在2023年8月资助vLLM核心开发者 2024年6月第三批名单资助SGLang开发者[31][33] - 真格基金2024年7月向vLLM提供捐赠 Linux基金会将vLLM纳入PyTorch基金会 2025年3月SGLang加入PyTorch生态系统[40] - 两项目已成为Google、Meta、Microsoft、字节跳动、阿里巴巴、腾讯等顶尖科技公司首选推理方案[34]
从中国“霸榜”到全球开源,AI的新思考!GOSIM HANGZHOU 2025圆满收官
AI科技大本营· 2025-09-16 10:33
开源与AI技术发展 - 开源推动AI技术落地 包括具身智能走出实验室 新操作系统重写 AI应用渗透各行各业 互联网焕发活力[1] - 具身智能面临高质量训练数据缺乏 跨芯片适配与低时延计算难题 评测体系尚在起步阶段等共性挑战[8] - 大模型重塑信息世界 具身智能让AI融入现实 需解决算法 硬件 模型到实际应用场景的技术难题[12] 全球协作与生态建设 - 大会汇聚全球200余位开源与AI技术领袖 国际机构代表 产业先锋 超过1500名一线开源开发者[1] - 联合国 PyTorch基金会 CNCF基金会 Eclipse基金会 SpeakLeash基金会等国际组织深度参与 分享治理理念与技术标准[3] - 华为首席开源联络官指出 全球开源社区共同支撑大模型 产业算力 数千万开发者和Agent融合 建设软件AI超级工厂[7] 技术前沿与创新应用 - Rust语言十周年 RustGlobal与RustChinaConf首次同台亮相 近60位一线Rust技术专家分享工具链优化 操作系统实验 高性能网络等话题[15] - 智能体互联网论坛讨论可信机制 去中心化标识符 MCP与A2A协议等前沿议题 分享智能体互操作性 协议标准化与数据安全最新实践[13] - 端侧AI推理工作坊聚焦技术突破与未来趋势 嵌入式Rust与AI工作坊提供端侧智能与系统级开发实践路径[18][20] 开发者互动与实践 - 大会设计14场Workshop 涵盖昇腾计算与高性能推理 Flutter跨平台应用 仓颉编程语言 端侧AI推理等核心技术[17][18] - 4场黑客松围绕超级智能体 Code Alert Adora机器人 Adora LeRobot等主题 开发者组队敲代码 从构思到原型验证创意[22][23] - SGLang开源推理引擎举办中国首场Workshop 开发者与阿里云 科大讯飞 美团 华为昇腾 英伟达 字节跳动等企业专家深入交流[20] 产业应用与跨界融合 - 应用与智能体论坛分享AI应用前沿经验 呈现大模型在提升生产力方面的最新成果[14] - 下一代AI论坛汇集技术专家 艺术家与设计师 探讨教育 艺术 游戏和开源生态等领域的创新应用与变革潜力[14] - AI for Humanity Spotlight活动聚焦教育公平 心理健康 文化表达 无障碍设计等领域 收到200多份投稿 79个作品入围 6个获最受欢迎奖[24] 企业参与与技术支持 - NVIDIA 华为 谷歌 Hugging Face 字节跳动 OpenCV.org 智源研究院 宇树科技 蚂蚁集团 红帽 奇点智能研究院等产业力量展现技术与生态联动[3] - 企业参访活动走进阿里巴巴 宇树科技等中国AI科技企业 了解人工智能 智能制造 数字经济等领域的技术研发成果与产业应用实践[27] - 华为专家分享昇腾CANN底层优化 大模型训练推理性能提升 大模型能力密度提升等核心技术[17]
Mira Murati 创业公司首发长文,尝试解决 LLM 推理的不确定性难题
Founder Park· 2025-09-11 07:17
公司背景与动态 - Thinking Machines Lab由OpenAI前CTO Mira Murati于2024年2月成立的人工智能初创公司[2] - 公司推出新博客栏目Connectionism,涵盖从核函数数值计算到提示工程等广泛研究主题[3] - 核心开发者Horace He(前PyTorch核心开发者,Meta离职)加入公司并主导技术研究[8] LLM推理不确定性问题分析 - 大语言模型推理中存在不可复现性,即使温度参数设为0,API仍非确定性[10] - 开源推理库(如vLLM或SGLang)在自有硬件上运行同样存在非确定性问题[11] - 传统假设认为浮点非结合性与并发执行导致不确定性,但未完全解释根本原因[13][16] 不确定性根本原因 - 浮点运算的非结合性导致数值计算差异,但非直接原因[17][21] - 原子加法操作在并发环境下导致运行间不确定性,但LLM前向传播过程通常无需原子加法[26][29][33] - 核心问题在于缺乏批次不变性:核函数输出受batch size变化影响,而服务器负载决定batch size[35][37][40] 批次不变性解决方案 - 实现批次不变性需确保RMSNorm、矩阵乘法和注意力机制与batch size无关[42] - RMSNorm需固定归约顺序,避免因batch size变化改变并行策略[46][50] - 矩阵乘法需编译固定核函数配置,放弃Split-K等优化以保持一致性[56][60] - 注意力机制需处理序列维度和特征维度归约,采用固定拆分大小策略而非动态调度[67][72] 实验验证与性能 - 使用Qwen3-235B模型测试,未优化时1000次采样产生80种不同结果,首次差异出现在第103个token[76][77] - 启用批次不变性核函数后,1000次结果完全一致[78] - 当前未优化版本性能下降,但未出现灾难性性能损失(vLLM默认26秒 vs 确定性版本42秒)[80][81] 应用价值与行业意义 - 确定性推理可实现真正的在策略强化学习,避免训练与推理间数值差异导致的策略偏移[82] - 解决不确定性问题有助于提升科学研究的可复现性和系统可靠性[85] - 公司开源批次不变性核函数库,提供确定性推理示例(GitHub仓库thinking-machines-lab/batch_invariant_ops)[74][75]
刚刚,Thinking Machines Lab首次发长文,揭开LLM推理不确定性真相
机器之心· 2025-09-11 03:36
文章核心观点 - Thinking Machines Lab发布首篇研究文章指出大语言模型推理不确定性的根本原因是缺乏批次不变性而非浮点非结合性或并发性[1][17][41] - 通过实现批次不变性核函数可彻底解决LLM推理不确定性问题使模型在温度参数为0时产生完全确定性输出[41][86][91] - 确定性推理对强化学习训练至关重要可避免策略偏离实现真正的在策略强化学习[90][91] 公司背景与动态 - Thinking Machines Lab由OpenAI前CTO Mira Murati于2025年2月创立并推出博客栏目Connectionism致敬20世纪80年代连接主义学派[1][3] - 公司首篇博客由PyTorch核心开发者Horace He主笔其于2025年3月从Meta离职加入该公司[8] LLM推理不确定性现象 - 即使温度参数设为0大语言模型API仍无法保证确定性输出[11] - 开源推理库如vLLM或SGLang在自有硬件上运行同样存在非确定性采样问题[12] - 实验显示Qwen3-235B模型在1000次重复生成中产生80种不同结果最高频结果仅出现78次[85] 传统假设的局限性 - "并发+浮点"假设认为浮点非结合性与并发执行导致不确定性但未解释根本机制[13][14] - GPU矩阵乘法在相同输入下可保持位级一致性证明并发性并非主因[15][21] - 前向传播过程本身具有运行间确定性但系统级不确定性源于批次大小变化[39][41] 批次不变性原理 - 核函数输出结果受批次大小影响导致同一请求在不同服务器负载下产生差异[41][44] - 缺乏批次不变性的操作包括RMSNorm矩阵乘法和注意力机制[49] - 归约顺序随批次大小变化是打破不变性的关键因素例如RMSNorm中核心分配策略受batch size影响[52][56] 技术实现方案 - 矩阵乘法需固定核函数配置避免使用Split-K策略以保持批次不变性[63][67] - 注意力机制需确保KV缓存内存布局一致性并采用固定拆分大小策略而非动态调度[74][79] - 已开源批次不变性核函数库batch-invariant-ops并提供确定性vLLM示例[82][83] 性能与实验数据 - 确定性核函数使Qwen3-235B模型1000次生成结果完全一致首次差异出现于第103个token[86] - 未优化确定性vLLM在Qwen-3-8B模型推理中耗时42秒较默认配置26秒存在性能损耗但属可接受范围[88][89] - 确定性推理使强化学习训练KL散度降至0避免奖励崩溃问题[91] 行业意义 - 解决数值差异可提升科学实验可复现性并优化强化学习训练流程[90][91] - 呼吁社区深入理解系统底层机制而非容忍不确定性[94]
超大模型推理加速2.18倍!SGLang联合美团技术团队开源投机采样训练框架
量子位· 2025-07-26 09:01
开源框架SpecForge - SGLang团队联合美团搜推平台、Cloudsway.AI开源专为超大模型设计的投机采样训练框架SpecForge [1] - 该框架基于Eagle3技术,是首个支持超大模型投机采样训练并开箱即用的框架,与SGLang推理引擎深度集成 [5] - 针对当前开源社区缺乏支持超大尺寸模型训练且与SGLang深度结合框架的痛点 [6] 技术特性 - 集成最先进的投机采样方法Eagle3,通过轻量级草稿模型预测目标模型token分布实现高接受率和性能提升 [7] - 原生支持主流模型架构包括复杂MoE层和Transformer变体 [7] - 采用FSDP和TP并行策略实现GPU集群高效扩展,显著降低大规模训练内存开销 [7][14] - 创新性封装训练时测试(TTT)架构,通过模拟多步生成增强模型健壮性 [9] - 提供在线与离线双重训练模式,动态调整隐藏状态收集策略 [10][17] 性能表现 - 在320K样本数据集上为LLaMA 4训练的草稿模型实现2.18倍推理加速 [15] - 在MT-Bench等行业标准基准测试中表现出色,验证与Eagle3架构的兼容性 [15] - 通过bench_speculative脚本可针对不同硬件调优出最佳性能参数 [16] 应用场景 - 适用于Kimi K2、Qwen Coder等超大型开源模型的推理效率提升 [4] - 在线模式适合快速实验和存储有限场景,离线模式保证实验可复现性 [17] - 未来计划支持更多模型架构包括Kimi K2、Qwen-3 MoE及视觉-语言模型 [22] 资源获取 - GitHub仓库提供完整源代码包括TTT实现细节 [20] - Hugging Face提供LLaMA 4 Scout和Maverick预训练模型 [20]
AI Infra 工程师们如何应对大模型流水线里的“暗涌”?
AI前线· 2025-06-26 05:44
大模型基础设施工程挑战 - 训练任务中断是万卡集群的普遍现象,GPU错误率导致每天必然出现不同故障,同步训练特性使单卡故障可导致整个训练停滞[4] - 硬件故障定位困难,早期依赖人工二分法排查准确率低,误判会导致任务反复重启失败,涉及网络系统、交换机、光模块等多环节问题[4][5] - 损失函数异常飙升成因复杂,需算法团队与Infra团队紧密协作排查硬件差异、算法缺陷或代码错误[7] 推理部署核心问题 - 运行时错误和性能问题是用户最高频反馈,前者涉及显存分配溢出等配置错误,后者常因环境差异导致测试结果无法复现[6] - KV缓存内存分配不足会降低推理批次规模,预填充到解码各环节异常均可能引发延迟偏高或吞吐量下降[7] - 性能剖析工具如PyTorch Profiler和GPU监控系统对定位CUDA算子执行问题至关重要,人工排查效率低下[12] 工程流水线管理难点 - 并行策略兼容性挑战显著,如Multi Token Prediction与数据并行注意力机制存在代码耦合问题,需经历重构阵痛期[8] - 新特性与旧算法冲突时采用分版本独立启用策略,通过持续迭代逐步解决分支冲突,仅靠CI流水线保障不足[9] - 研发环节受资源限制,CI测试无法模拟万卡规模问题,功能更新导致MFU下降时需依赖二分法回退测试定位[10] 成本优化关键技术路径 - MoE架构专家并行可减少单卡权重负载,释放显存用于KV缓存,模型设计与部署需联合规划[14] - 推理缓存策略优化涉及CPU内存KV缓存驱逐机制,需针对Agent工作流等场景定制调度算法[15] - GPU利用率提升依赖计算通信重叠技术,如双批次重叠策略可掩盖通信开销[16] - 大型机柜整合方案通过NVLink拉远技术将跨节点通信带宽提升近节点内水平,显著改善MFU[18] 开源项目运营挑战 - 社区运营需构建用户反馈与开发者贡献的良性循环,超越代码能力成为项目持续进化核心[21] - 平衡公司工作与社区投入依赖开源热情,技术监督委员会运营和全球影响力建设需从零起步[20] - 硬件厂商锁定效应构成壁垒,如昇腾开源项目初期被认知为仅支持特定硬件[21] 异构计算发展趋势 - 预填充与解码阶段硬件需求分化推动异构部署,前者需要高算力芯片后者侧重显存管理[24] - GPU虚拟化依赖厂商支持,英伟达MIG基于SR-IOV技术实现设备级虚拟化资源分配[23] - 智能调度混部技术成熟使CPU/GPU混合部署成为基础设施演进方向[25]
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 04:50
经典小游戏成为新Benchmark - o3-pro突破推箱子第六关上限并通关所有关卡 表现远超benchmark原有标准[2][8] - 俄罗斯方块测试中o3-pro得分无上限 成绩较前SOTA模型o3直接翻倍[3][14] - 测试采用迭代交互循环模式 结合智能体框架的感知/记忆/推理模块提升稳定性[18][20] Lmgame基准测试体系 - 包含6款游戏:推箱子(1989版)、俄罗斯方块、2048、糖果传奇、马里奥兄弟、逆转裁判[6][18] - 各游戏评估标准差异化:推箱子计算通关关卡数 俄罗斯方块按方块数+10倍消行数计分[7][13][24] - 测试框架开源 支持动态更新游戏关卡(如推箱子从4关扩展至50关)[9][23] 模型性能对比 - 推箱子历史排名:o3-pro > o3 > o4-mini > DeepSeek-R1(0528版)[10] - 俄罗斯方块历史排名:o3-pro > o3 > R1 > o4-mini 与推箱子排名存在差异[14] - o3-pro操作耗时显著 单步决策需数分钟[17] 研究团队背景 - 项目来自UCSD Hao AI Lab 负责人张昊(卡内基梅隆博士)曾参与创立LMSYS[28][29][30] - 实验室获谷歌/英伟达资助 2024年4月接收DGX B200捐赠[34] - 开源项目FastVideo获GitHub 1 5k星标 团队同时开发大模型竞技场等知名框架[32][31] 行业应用延伸 - Gemini模型2024年5月成功通关宝可梦·蓝 谷歌CEO公开宣布成果[26][27] - 测试方法受业界认可 网友认为比大模型竞技场更适合评估模型能力[5]
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 04:49
经典小游戏成为大模型Benchmark - 核心观点:经典小游戏如推箱子和俄罗斯方块被用作测试大模型性能的新基准,o3-pro模型在该基准上表现优异,突破了原有上限 [1][2][6] - o3-pro在推箱子游戏中通关所有关卡,远超之前仅能完成第六关的benchmark上限 [3][7][8] - 在俄罗斯方块中o3-pro表现持续强劲,游戏需强行终止,其得分计算方式为放置方块数量与清除行数10倍之和 [13][14] - 与前SOTA模型o3相比,o3-pro成绩直接翻倍 [3] Lmgame Benchmark框架设计 - 测试框架包含六款游戏:推箱子、俄罗斯方块、2048、糖果传奇、马里奥兄弟和逆转裁判 [18] - 采用迭代交互循环模式:游戏状态持续反馈给模型,模型生成动作后获得奖励并更新状态 [18] - 引入智能体框架辅助,包含感知、记忆、推理模块,并通过提示标准化确保评估稳定性 [20] - 各游戏评价标准差异化:马里奥兄弟按移动距离、2048按合并方块值对数、糖果传奇按消除数量、逆转裁判按正确动作计数 [24] 模型性能对比与开源生态 - 推箱子历史排名:o3-pro > o3 > o4-mini > DeepSeek-R1(0528) [10] - 俄罗斯方块历史排名:o3-pro > o3 > R1 > o4-mini(与推箱子排名部分倒置) [14] - 测试基准动态更新,GitHub仓库半月前仅四关,原版推箱子含50+关卡 [9] - 项目完全开源,可自行下载测试模型性能 [23] 研究团队背景 - Lmgame由UCSD Hao AI Lab开发,负责人张昊为卡内基梅隆博士、伯克利博士后,曾参与创立LMSYS(大模型竞技场开发方) [28][29][30] - 实验室获谷歌/英伟达资助,2024年4月获赠英伟达DGX B200服务器 [34] - 其他开源项目FastVideo(视频生成加速框架)获GitHub 1.5k星 [32]
SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻
AI前线· 2025-06-13 06:42
SGLang 开源推理引擎发展现状 - 截至2025年6月 GitHub Stars达15K 月均下载量突破10万次 [1] - 已被xAI Microsoft Azure NVIDIA AMD LinkedIn 美团等行业巨头采用 [1] - 成为DeepSeek R1官方推荐推理引擎 并实现首个完全开源的大规模专家并行部署方案 [1] 核心技术优势 - 采用PD分离架构控制尾延迟 推测解码提升Token生成速度 KV缓存落盘优化显存 [2] - 实现RadixAttention Overlap Scheduling等高效架构设计 复现PD分离 大规模EP等前沿技术 [3] - 支持离线批处理最大化GPU利用率 线上推理优先保障Token生成速度的差异化部署策略 [4] 并行部署技术挑战 - 专家并行实现中面临通讯与Prefill/Decode传输KV缓存的时间重叠问题 [4] - 网卡资源争抢 CPU负载过大 Python GIL锁释放不及时等工程挑战突出 [4] 社区生态建设 - 开源模式吸引广泛参与 技术分享增强社区认同感 [5] - 超过100k显卡规模的工业部署经验反哺技术演进 [5] 关键技术解析 - PD分离使Decode延迟均匀稳定 允许采用不同并行策略提升资源利用率 [6] - 推测解码通过隐藏层信息一次预测多个Token 显著提升Decode速度 [6] - KV缓存落盘将历史上下文存储至大容量设备 避免重复Prefill计算 [6] 部署实践洞察 - 参数配置调试是影响上线效率的关键环节 需精细化优化而非依赖"开箱即用" [7] - 模型规模持续扩大背景下 多GPU与高效并行策略是实现高性价比部署的必经之路 [7] 行业活动预告 - AICon全球人工智能开发与应用大会将深入解析大模型推理关键技术 [2][7] - 聚焦AI Agent构建 多模态应用 大模型推理优化等前沿议题 [7]