RoleBasedGroup (RBG) - 财报，业绩电话会，研报，新闻

RoleBasedGroup (RBG)

搜索文档

基于 SGlang RBG + Mooncake 打造生产级云原生大模型推理平台

AI前线· 2025-12-12 00:40

文章核心观点 - 大语言模型推理服务正成为企业级应用核心基础设施，其生产级落地的关键在于平衡性能、稳定性与成本 [2] - 为应对模型规模扩张带来的显存压力，LLM推理架构正从单体模式向分布式演进，主流路径包括Prefill-Decode分离、Attention-FFN分离以及KVCache外置 [2] - 在长上下文、高并发、RAG、AI Agent等场景中，KVCache外置已成为保障低延迟、高吞吐与成本效益的必选项 [2] - 通过结合RoleBasedGroup（RBG）编排引擎与Mooncake分布式KVCache存储引擎，可以系统化构建生产级稳定高性能的PD分离推理服务，解决分布式部署复杂性与有状态缓存服务平滑升级等行业难题 [4][5][43] LLM推理架构演进与挑战 - 演进根本动因是模型规模扩张导致的显存压力：在长上下文或高并发场景下，KVCache显存占用常超过70% [2] - 将KVCache解耦外置能突破存储容量瓶颈，并实现跨请求缓存共享、弹性伸缩与故障隔离等关键能力 [2] - 当前生产环境面临五大根本性挑战：快速架构迭代、性能敏感、组件强依赖、运维效率低、资源潮汐显著与利用率不足 [12][15] - 线上流量峰谷差常超过10倍，但静态配置的推理服务GPU平均利用率长期低于30% [15] Mooncake分布式KVCache存储引擎 - Mooncake是业界主流的分布式KVCache存储引擎，为SGLang等推理框架提供高吞吐、低延迟的KVCache分布式服务 [3] - 它是SGLang HiCache（层级缓存）的高性能分布式L3存储后端，通过RDMA实现跨机KVCache共享，突破单机GPU/CPU缓存容量瓶颈 [7] - 核心组件包括：管理集群存储池、元数据与节点生命周期的Master Service，以及提供分布式缓存存储、支持多副本与负载均衡的Store Service [9] RoleBasedGroup（RBG）编排引擎 - RBG是面向大模型推理的Kubernetes原生API，通过多角色协同编排，将Mooncake缓存与SGLang推理节点视为同一服务的不同角色进行统一管理 [4] - 其核心设计理念是将一次推理服务视为拓扑化、有状态、可协同的“角色有机体”，以“角色”作为调度编排的原子单元 [13][14] - RBG提出面向生产环境的SCOPE核心能力框架：稳定（Stable）、协同（Coordination）、可编排（Orchestration）、高性能（Performance）、可演进（Extensible） [14][16][17] RBG的SCOPE核心能力解析 - **稳定**：通过为每个Pod注入全局唯一RoleID，并遵循“最小替换域”原则，确保运维操作在原有硬件拓扑范围内完成，避免拓扑漂移导致的性能抖动 [19] - **协同**：内置声明式协同引擎，精确定义角色间在部署、升级、故障、伸缩时的依赖关系与联动策略 [19][22] - **可编排**：显式定义角色依赖与启动顺序，并提供拓扑自感知的内建服务发现，将完整拓扑信息注入Pod环境，降低集成复杂度 [20] - **高性能**：引入拓扑感知的装箱策略，支持GPU拓扑优先级、角色亲和与反亲和约束、布局均衡性等多维度性能优化 [21][23] - **可演进**：通过声明式API与插件化机制，将角色关系定义与部署管理解耦，可快速适配社区演进的新架构，显著缩短新架构投产周期 [24] 基于RBG部署PD分离架构与Mooncake的实践 - 通过RBG可部署高可用、弹性的SGLang PD分离推理系统，核心角色包括：SGLang Router、Prefill Serving Backend、Decode Serving Backend、Mooncake Master/Store [29][31] - EngineRuntime作为RBG注入的Sidecar，成为推理引擎与上层编排系统的桥梁，提供动态LoRA加载、流量控制等关键运行时能力 [29] - 多轮对话场景Benchmark测试表明，多级缓存架构对性能提升至关重要 [31] 性能提升数据 - **Baseline（仅GPU显存）**：缓存命中率2.22%，平均TTFT 5.91秒，P90 TTFT 12.16秒，InputToken吞吐量6576.85 token/s [32][48] - **启用L2 DRAM HiCache**：命中率提升至40.62%，平均TTFT降至3.77秒（下降36.2%），P90 TTFT降至10.88秒，InputToken吞吐量提升至10054.21 token/s（提升52.89%） [32][48] - **启用L3 Mooncake缓存**：命中率进一步跃升，平均TTFT降至2.58秒（下降56.3%），P90 TTFT大幅改善至6.97秒（下降42.7%），InputToken吞吐量提升至15022.80 token/s（提升49.41%） [32][48] 平滑升级与运维稳定性 - Mooncake作为有状态缓存服务，在传统Kubernetes滚动升级中缓存丢失会导致P99延迟毛刺与系统吞吐量断崖式下跌 [36][40] - 解决方案结合了Mooncake缓存本地持久化功能与RBG的原地升级能力，使得在联合升级过程中KVCache状态得以延续，活跃会话无需回退到Prefill阶段 [36][40] - 原地升级实现了“升级无感、服务不抖”的生产级目标，将有状态缓存服务的平滑演进转化为标准化、可自动化的运维能力 [38][43] 总结与行业意义 - RBG重新定义了LLM推理服务的编排范式，通过多角色协同与拓扑感知调度解决了分布式部署复杂性，并攻克了有状态缓存服务平滑升级的难题 [43][44] - Mooncake作为L3缓存层，通过分布式内存池与RDMA加速，使缓存命中率跃升，显著降低了延迟并提升了吞吐，同时将GPU平均利用率从不足30%提升至可持续弹性伸缩的水平 [44] - 从GPU HBM → DRAM → Mooncake的三级缓存体系被证明是有效的，尤其在多轮对话、RAG、AI Agent等场景中，缓存复用带来的边际成本递减效应将愈发显著 [44] - RBG与Mooncake的协同实践表明，只有将高性能系统设计与云原生运维能力深度融合，才能让大模型推理真正从“能用”走向“好用”，从“实验室”走向“生产级” [43]

大模型推理

云原生

Artificial Intelligence

Artificial Intelligence

SGLang

Mooncake

RoleBasedGroup (RBG)