Workflow
RoleBasedGroup (RBG)
icon
搜索文档
基于 SGlang RBG + Mooncake 打造生产级云原生大模型推理平台
AI前线· 2025-12-12 00:40
文章核心观点 - 大语言模型推理服务正成为企业级应用核心基础设施,其生产级落地的关键在于平衡性能、稳定性与成本 [2] - 为应对模型规模扩张带来的显存压力,LLM推理架构正从单体模式向分布式演进,主流路径包括Prefill-Decode分离、Attention-FFN分离以及KVCache外置 [2] - 在长上下文、高并发、RAG、AI Agent等场景中,KVCache外置已成为保障低延迟、高吞吐与成本效益的必选项 [2] - 通过结合RoleBasedGroup(RBG)编排引擎与Mooncake分布式KVCache存储引擎,可以系统化构建生产级稳定高性能的PD分离推理服务,解决分布式部署复杂性与有状态缓存服务平滑升级等行业难题 [4][5][43] LLM推理架构演进与挑战 - 演进根本动因是模型规模扩张导致的显存压力:在长上下文或高并发场景下,KVCache显存占用常超过70% [2] - 将KVCache解耦外置能突破存储容量瓶颈,并实现跨请求缓存共享、弹性伸缩与故障隔离等关键能力 [2] - 当前生产环境面临五大根本性挑战:快速架构迭代、性能敏感、组件强依赖、运维效率低、资源潮汐显著与利用率不足 [12][15] - 线上流量峰谷差常超过10倍,但静态配置的推理服务GPU平均利用率长期低于30% [15] Mooncake分布式KVCache存储引擎 - Mooncake是业界主流的分布式KVCache存储引擎,为SGLang等推理框架提供高吞吐、低延迟的KVCache分布式服务 [3] - 它是SGLang HiCache(层级缓存)的高性能分布式L3存储后端,通过RDMA实现跨机KVCache共享,突破单机GPU/CPU缓存容量瓶颈 [7] - 核心组件包括:管理集群存储池、元数据与节点生命周期的Master Service,以及提供分布式缓存存储、支持多副本与负载均衡的Store Service [9] RoleBasedGroup(RBG)编排引擎 - RBG是面向大模型推理的Kubernetes原生API,通过多角色协同编排,将Mooncake缓存与SGLang推理节点视为同一服务的不同角色进行统一管理 [4] - 其核心设计理念是将一次推理服务视为拓扑化、有状态、可协同的“角色有机体”,以“角色”作为调度编排的原子单元 [13][14] - RBG提出面向生产环境的SCOPE核心能力框架:稳定(Stable)、协同(Coordination)、可编排(Orchestration)、高性能(Performance)、可演进(Extensible) [14][16][17] RBG的SCOPE核心能力解析 - **稳定**:通过为每个Pod注入全局唯一RoleID,并遵循“最小替换域”原则,确保运维操作在原有硬件拓扑范围内完成,避免拓扑漂移导致的性能抖动 [19] - **协同**:内置声明式协同引擎,精确定义角色间在部署、升级、故障、伸缩时的依赖关系与联动策略 [19][22] - **可编排**:显式定义角色依赖与启动顺序,并提供拓扑自感知的内建服务发现,将完整拓扑信息注入Pod环境,降低集成复杂度 [20] - **高性能**:引入拓扑感知的装箱策略,支持GPU拓扑优先级、角色亲和与反亲和约束、布局均衡性等多维度性能优化 [21][23] - **可演进**:通过声明式API与插件化机制,将角色关系定义与部署管理解耦,可快速适配社区演进的新架构,显著缩短新架构投产周期 [24] 基于RBG部署PD分离架构与Mooncake的实践 - 通过RBG可部署高可用、弹性的SGLang PD分离推理系统,核心角色包括:SGLang Router、Prefill Serving Backend、Decode Serving Backend、Mooncake Master/Store [29][31] - EngineRuntime作为RBG注入的Sidecar,成为推理引擎与上层编排系统的桥梁,提供动态LoRA加载、流量控制等关键运行时能力 [29] - 多轮对话场景Benchmark测试表明,多级缓存架构对性能提升至关重要 [31] 性能提升数据 - **Baseline(仅GPU显存)**:缓存命中率2.22%,平均TTFT 5.91秒,P90 TTFT 12.16秒,InputToken吞吐量6576.85 token/s [32][48] - **启用L2 DRAM HiCache**:命中率提升至40.62%,平均TTFT降至3.77秒(下降36.2%),P90 TTFT降至10.88秒,InputToken吞吐量提升至10054.21 token/s(提升52.89%) [32][48] - **启用L3 Mooncake缓存**:命中率进一步跃升,平均TTFT降至2.58秒(下降56.3%),P90 TTFT大幅改善至6.97秒(下降42.7%),InputToken吞吐量提升至15022.80 token/s(提升49.41%) [32][48] 平滑升级与运维稳定性 - Mooncake作为有状态缓存服务,在传统Kubernetes滚动升级中缓存丢失会导致P99延迟毛刺与系统吞吐量断崖式下跌 [36][40] - 解决方案结合了Mooncake缓存本地持久化功能与RBG的原地升级能力,使得在联合升级过程中KVCache状态得以延续,活跃会话无需回退到Prefill阶段 [36][40] - 原地升级实现了“升级无感、服务不抖”的生产级目标,将有状态缓存服务的平滑演进转化为标准化、可自动化的运维能力 [38][43] 总结与行业意义 - RBG重新定义了LLM推理服务的编排范式,通过多角色协同与拓扑感知调度解决了分布式部署复杂性,并攻克了有状态缓存服务平滑升级的难题 [43][44] - Mooncake作为L3缓存层,通过分布式内存池与RDMA加速,使缓存命中率跃升,显著降低了延迟并提升了吞吐,同时将GPU平均利用率从不足30%提升至可持续弹性伸缩的水平 [44] - 从GPU HBM → DRAM → Mooncake的三级缓存体系被证明是有效的,尤其在多轮对话、RAG、AI Agent等场景中,缓存复用带来的边际成本递减效应将愈发显著 [44] - RBG与Mooncake的协同实践表明,只有将高性能系统设计与云原生运维能力深度融合,才能让大模型推理真正从“能用”走向“好用”,从“实验室”走向“生产级” [43]