slime - 财报，业绩电话会，研报，新闻

slime

搜索文档

自动驾驶之心· 2025-12-16 00:03

文章核心观点文章是一篇对当前开源强化学习训练框架的技术调研与对比分析，作者基于其多模态模型在实际环境中进行多轮强化学习训练的业务需求，重点评估了verl、slime、AReaL、RL2等框架，并最终选择了AReaL框架其核心观点在于，当前强化学习训练框架在适配复杂、长尾的Agentic环境时面临挑战，而异步训练架构与灵活的环境交互设计是解决这些挑战的关键方向 [2][3][11] 强化学习训练框架的现状与挑战 - 开源社区强化学习训练框架呈现百花齐放的状态，包括老牌的openlhf、trl、unsloth、verl以及今年新开源的slime、AReaL、Rlinf、RL2、ROLL等 [2] - 目前没有一款框架能很好地适配多模态模型进行Agentic强化学习训练，主要难点在于Agentic环境与具体业务强相关，难以从框架层面抽象出通用函数或类来适配所有环境 [2] - 作者在调研中主要纠结于几个关键点：框架的社区活跃度与环境适配代码修改量、训练过程中的GPU编排问题、数据流向与数据结构的设计，以及异步训练的支持程度 [2][3][5][6] 同步与异步训练架构的对比 - 在2025年前半年的RLHF和RLVR时代，训练长尾效应不明显，因此早期成熟的强化学习训练框架（如verl）主要采用训练和推理同步的架构方案 [3] - 同步训练架构遵循先推理后训练的固定流程，可能导致训练效率低下和GPU资源空转，例如在相同GPU集群上交替卸载模型，或在不同集群上采用流水线方案 [3][5] - 异步强化学习训练成为新框架的优先支持特性，它能提升效率，但会引入数据偏移问题，使训练从on-policy退化为off-policy，并且需要为训练和推理分配不同的GPU资源以优化资源利用率 [11] 关键技术实现与设计考量 - **训推分离**：当前几乎所有强化学习训练框架都采用训练与推理分离的架构，训练引擎使用FSDP、Megatron，推理引擎采用sglang或vllm，中间通过Ray进行资源分配与调度 [12] - **权重更新机制**：训练侧更新模型权重后，需将新权重传递给推理引擎，涉及不同模型切分方案间的适配，常用技巧包括分桶传输、通过Router转发等以降低通信开销 [16][17][18] - **训推Gap问题**：由于推理引擎的优化（如KV量化、算子融合）可能导致其输出的logits与训练引擎存在差异，解决方法包括使用重要性采样来拟合分布差异，并需注意推理量化（如4bit）可能因分布差异过大而被裁剪，导致训练不稳定 [19][20][21][22] - **Token一致性**：为避免二次编码导致的token分布不一致，所有强化学习训练框架在rollout返回时会同步返回输出的token ids，直接供训练引擎使用 [23] 环境交互与Agentic训练支持 - 环境交互部分在所有强化学习框架中均为异步实现，以避免阻塞 [28] - verl框架的Agent多轮训练逻辑相对僵化，其设计以工具调用视角为主，处理流程写死，难以适应每个rollout环境状态不一致的复杂交互需求 [24][25] - AReaL和slime框架在环境适配上设计更巧妙，支持通过自定义函数或工作流基类来实现复杂的、自定义的环境交互逻辑，灵活性更高 [26][27] 异步训练与长尾问题解决方案 - **异步训练核心**：采用生产者-消费者模型，推理引擎作为生产者进行rollout，训练引擎作为消费者获取数据进行训练，通过消息队列管理数据 [29] - **陈旧度管理**：引入staleness参数控制数据有效性，当rollout数据的模型版本号与当前最新模型版本号差距超过设定值（通常为1-2）时，数据将被丢弃，以防止因模型分布偏离过大导致训练无效 [32] - **部分Rollout**：这是解决长尾任务导致资源浪费的关键技术，当需要更新推理引擎权重时，可暂停正在进行的rollout任务，更新权重后从中断处继续，从而兼顾训练连续性与模型更新及时性 [37][38] 强化学习算法与奖励设置的思考 - 当前大语言模型的强化学习算法主要分为序列级奖励和Token级奖励两类，根本上都是PPO算法的变体 [39] - 奖励设置在Token粒度上难度较大，因为很难为序列中的每个Token设计客观合理的奖励，而实际业务的动作粒度通常由多个Token组成，因此是否存在针对业务动作粒度的最优奖励方案仍有待验证 [39] - 强化学习训练的成功关键被认为在于环境和奖励的设置，当前主流方案仍依赖大语言模型或智能体作为评判者，并辅以多种提示词技巧，但根本上仍无法完全避免奖励黑客问题 [42] 各框架特点总结与选择建议 - **verl**：代码工程化程度高，侧重训练与推理引擎的调度，践行SPMD思想，但异步训练支持较晚，且Agent循环控制流较为僵化，修改成本高 [12][25][43] - **slime**：代码简洁，流程明确，但早期对FSDP适配及异步训练的支持尚不成熟 [43] - **AReaL**：代码结构复杂但质量高，异步训练方案成熟，环境交互设计灵活，支持自定义工作流，是作者最终的选择 [2][29][44] - **RL2**：代码逻辑简单，适合初学者入门以理清强化学习训练的基本逻辑 [45]

Z Tech ｜ LMSYS 团队发布大规模 MoE 强化学习框架 Miles，不积跬步无以至千里

Z Potentials· 2025-11-20 04:12

文章核心观点 - LMSYS团队正式推出Miles，这是一个专为企业级大规模MoE训练及生产环境工作负载设计的强化学习框架[1] - Miles从轻量级框架slime分叉而来，在继承其轻量级与高可定制性基础上，针对新一代硬件（如GB300）与大规模MoE进行了深度优化[1] - 该框架引入了Infrastructure-level的True On-Policy、投机训练以及更极致的显存管理机制，旨在为追求高可靠性与大规模部署的团队提供流畅且可控的RL训练体验[1] 从slime出发的技术传承 - Miles完整继承了slime框架的轻量与模块化设计原则，已成为众多模型科学家探索算法的首选工具[3] - 采用True On-Policy策略，结合Flash Attention 3和DeepGEMM，实现了训练与推理的严格一致性[3] - 引入MTP Online Training的投机采样，在训练过程中对Draft Model进行在线SFT，解决了分布偏移问题[3] - 实施极致的显存优化，包括NCCL显存余量控制、部分Offloading及Host峰值内存节省，大幅减少大规模MoE训练中的OOM风险[3] 生产级核心技术突破 - 通过kernel层面优化实现True On-Policy，训练与推理之间的mismatch被精确地降至零[5] - 利用Flash Attention 3、DeepGEMM以及Batch invariant kernels，结合torch compile技术，确保结果的位级一致性[5] - 对SGLang和Megatron的全栈优化提供原生支持，紧跟推理与训练框架的快速迭代[6] - 算法、数据、采样与评估四大组件完全解耦，研究人员仅需极少的代码修改即可插入新的Agent类型或奖励函数[6] 大规模MoE显存优化 - 创新性地在RL过程中对Draft Model进行在线SFT，相比冻结MTP基线实现了25%以上的Rollout加速[9] - 引入传播机制以规避良性OOM导致的错误，实现显存余量机制以修复NCCL导致的OOM[10] - 修复FSDP中的额外显存占用问题，支持基于Move的部分Offloading以及Host端峰值内存节省策略[10] - 支持带Sequence Packing和Context Parallel的MTP，处理Loss Mask的边缘情况，实现LM Head/Embedding的梯度隔离[11] 未来路线图与社区愿景 - 未来开发路线图包括增强FSDP后端以提升大规模分布式训练的稳定性[14] - 计划允许Rollout子系统脱离框架独立部署，适应更灵活的集群调度[14] - 将新增更多监控指标、Post-hoc分析器及增强型Profiler等调试工具集[14] - 扩展对Multi-modal模型的支持，兼容SGLang Spec v2以获得更高性能，推进EAGLE3等更先进的投机训练技术[18]

强化学习

大规模MoE训练

Artificial Intelligence

Artificial Intelligence

Miles

slime

大模型优秀大脑齐聚硬核开源聚会，SGLang社区举办国内首次Meetup

机器之心· 2025-10-28 06:29

SGLang技术特性与架构 - 开源高性能大语言模型和视觉语言模型推理引擎，起源于RadixAttention，由非营利组织LMSYS孵化[7] - 核心特性包括快速后端Runtime（支持RadixAttention前缀缓存、连续批处理、推测性解码等）、广泛模型支持（兼容多数Hugging Face模型和OpenAI API）、广泛硬件支持（NVIDIA/AMD GPU、Intel Xeon CPU、Google TPU、华为昇腾NPU等）以及灵活的前端语言[14] - 在行业内得到广泛采用，全球范围内为超过30万块GPU提供支持[14] SGLang近期技术进展与路线图 - 技术进展包括KV Cache分层缓存、Piecewise CUDA Graph、Spec Decoding的重叠调度等，实现不同程度的效率和兼容性优化[21] - 未来路线图聚焦于对广泛企业的支持、对各类软硬件的拓展兼容和稳定性[22] - 量化方案近期实现了FP4量化支持，W4AFP8达成实现，未来路线图聚焦扩展应用范围、提升灵活性并引入新型数据格式[34][35] 产学研合作与生态整合 - 清华大学与SGLang合作推进Mooncake高性能分布式KV Cache存储解决方案及KTransformers集成，实现从CPU/GPU混合推理到LoRA微调的全流程开源生态扩展[25][27] - SGLang与趋境科技合作进行HiCache技术整合，通过多层次缓存管理与层页混合内存布局提升多GPU场景内存利用率与推理吞吐性能[25][26] - Slime项目构建公司与开源社区共建共赢的训练生态，实现技术与社区双向循环成长，目标成为世界最好的后训练框架[51] 行业应用实践案例 - 百度搜索架构部在文心4.5模型大规模部署中采用SGLang，应用于LLM推理、蒸馏和RL训练，并进行了特定模型优化、小卡优化和调度优化[41] - 腾讯微信搜一搜业务在LLM应用中采用SGLang实现高吞吐量与低延迟推理，优化首字速度TTFT和生成速度TPOT指标[44] - 华为通过SGLang实现DeepSeek V3.2在NPU上的适配优化，采用MQA+稀疏注意力方案在长序列推理中显著提升性能与资源利用率[47] 社区发展态势 - SGLang在北京举办国内首场Meetup，吸引来自知名公司、学校或组织的社区贡献者、开发者和学者参与，显现旺盛社区活力和发展潜能[4][8] - Meetup活动涵盖技术架构演进与应用实践分享，形成高密度硬核开源社区思想碰撞[10][11] - Specforge开源投机采样模型训练框架已应用于美团、英伟达、Google、蚂蚁等企业大模型优化，与SGLang完全结合开箱即用[57]

大语言模型

开源社区

Artificial Intelligence

Artificial Intelligence

SGLang

Specforge

slime

首个开源实现100%可复现的稳定RL训练框架来了！2次结果完全重合

量子位· 2025-09-27 01:30

核心技术突破 - SGLang团队联合slime团队通过定制注意力算子和采样逻辑，实现了完全确定性推理，解决了LLM推理中的不确定性问题[2][5][6] - 该实现基于Thinking Machines Lab提出的批次不变性算子，核心创新是解决了因动态批处理导致批次大小变化而引起的浮点运算非结合性问题[4][7] - 确定性推理功能与分块预填充、CUDA Graph、Radix Cache等关键性能优化技术完全兼容，在启用确定性模式时仍支持这些功能[5][9] 性能表现 - 使用CUDA Graph可实现2.8倍加速，与Thinking Machines Lab报告的61.5%性能下降相比，SGLang在FlashInfer和FlashAttention 3后端平均仅有34.35%的性能下降[5] - 在256个请求的RL推理工作负载测试中，确定性推理在FlashInfer后端的性能下降为24.4%-46%，FlashAttention 3后端为27.2%-35.7%，Triton后端为44.64%-55.1%[12][13] - 确定性测试显示，在三种不同测试场景下，常规模式会产生2-18个独特输出，而确定性模式在所有后端均稳定输出1个独特结果，实现了完美确定性[10][11] 技术验证与应用 - 基于Qwen3-8B的重复实验显示两次运行曲线完美重合，为需要高精度复现的实验场景提供了可靠保障[1] - 支持按请求设置采样种子，即使在temperature>0的非贪婪采样模式下也能实现确定性推理[9] - 当前主要推荐用于调试和复现性场景，未来目标是将性能差距缩小到20%以内或与正常模式持平[13] 未来发展路径 - 将优化批次不变算子作为性能提升重点，这对提高RL推理速度至关重要[18] - 计划将确定性推理支持从Dense模型扩展到Qwen3-30B-A3B或DeepSeek-V3等混合专家模型[18] - 将增强基数缓存功能使其兼容更广泛的注意力算子，并计划集成FlexAttention等新后端[18]

确定性推理

可复现的稳定RL训练

Artificial Intelligence

Artificial Intelligence

SGLang

slime

Qwen3 - 8B

从现有主流 RL 库来聊聊RL Infra架构演进

自动驾驶之心· 2025-09-25 23:33

强化学习在大模型发展中的核心作用 - 强化学习已从辅助技术跃升为驱动大模型能力跃迁的核心动力正经历从单轮静态任务向多轮交互式智能体训练的关键范式转移目标是构建能在复杂动态环境中通过多步观察思考行动与反馈完成任务的智能体这是通往AGI的关键一步[2] - 强化学习正在重塑大模型能力边界不仅是弥补数据瓶颈的利器更是构建下一代通用智能体的核心方法论背后依赖日益成熟的RL基础设施生态[2] 现代RL基础设施架构范式 - 核心架构围绕Generator和Trainer两大组件 Generator负责让LLM与环境交互生成轨迹并计算奖励计算开销大设计灵活性和环境抽象能力至关重要 Trainer负责根据轨迹数据使用PPO和GRPO等算法更新模型参数性能取决于分布式训练后端如FSDP DeepSpeed Megatron[6] - 生成器-训练器架构配合Ray等分布式协调层构成大模型强化学习系统的黄金标准 RL训练计算成本极高涉及大规模并行推理和参数更新优秀RL库需高效稳定可扩展地协调这两个阶段[6] Primary Development框架 - TRL是Hugging Face官方推出的最开箱即用的RL框架更像训练器集合而非复杂分布式系统算法支持包括SFT PPO DPO GRPO IPO KTO Online DPO REINFORCE++等集成transformers库支持vLLM加速Rollout 训练后端依赖accelerate库支持DDP DeepSpeed ZeRO FSDP API简洁文档丰富适合快速原型和中小规模实验但不支持环境交互生成与训练耦合紧[9][10][14] - OpenRLHF由OpenLLMAI 字节网易等联合开发旨在提供高效可扩展的RLHF和Agentic RL框架训练后端基于DeepSpeed ZeRO-3和Auto Tensor Parallelism 代码结构清晰是许多二次开发框架的基础[11][15] - veRL由字节Seed团队开发是功能最全面算法支持最广泛的框架之一算法支持包括PPO GRPO GSPO ReMax REINFORCE++ RLOO PRIME DAPO DrGRPO等架构采用HybridFlow控制器支持多轮训练和工具调用目前生成与训练耦合后续规划异步解耦集成vLLM和SGLang等推理后端训练后端支持FSDP/FSDP2和Megatron-LM 奖励支持模型奖励和函数规则奖励如数学代码追求全能涵盖所有主流RL算法和应用场景是前沿算法研究和复杂任务如多模态多智能体实验的理想选择配置较复杂[16][22] - AReaL由蚂蚁开源专为大规模高吞吐推理模型RL设计核心是完全异步架构算法支持包括PPO GRPO REINFORCE++ RLOO DPO IPO KTO等架构支持异步Pipeline RLHF和异步Agentic RL模式后者通过Agent类API支持多轮对话深度集成vLLM用于高吞吐Rollout 核心创新是完全异步设计通过可中断Rollout Worker经验回放缓冲区和并行奖励服务将生成与训练彻底解耦使用SGLang进行Rollout Ray进行集群管理训练后端主要使用PyTorch FSDP 也支持Megatron 为追求极致训练效率和可扩展性而生其轻量版AReaL-lite提供更易用API[20][21][28] - NeMo-RL是NVIDIA官方推出的面向生产的RL框架集成在NeMo生态系统中与NVIDIA硬件GPU和软件栈CUDA TensorRT深度集成提供从RM训练到PPO的端到端Pipeline 设计优雅接口定义清晰性能和扩展性兼顾[24][29] - ROLL是阿里开源专注于大规模LLM RL的框架强调异步和Agentic能力算法支持集成了GRPO PPO REINFORCE++ TOPR RAFT++ GSPO等多种先进RL算法架构采用基于Ray的多角色分布式设计将策略生成价值评估奖励计算等任务解耦到独立Worker角色中实现灵活资源调度异步训练和复杂任务编排深度集成SGLang和vLLM作为高性能推理后端加速策略生成Rollout 训练后端主要基于DeepSpeed ZeRO和Megatron-LM 5D并行未来支持FSDP2 奖励通过模块化奖励工作者RewardWorker处理奖励计算支持验证器沙盒LLM-as-judge等多种奖励源构建灵活奖励路由机制面向多样化用户高度可配置接口丰富[30][36] - slime由清华智谱开源是轻量级专注于将SGLang与Megatron无缝连接的框架架构强调可扩展性和生产级编排支持异步Rollout非Colocate放置等训练后端支持Megatron-Core和DTensor FSDP2 集成支持使用TensorRT-LLM和vLLM进行rollout 通过自定义数据生成接口和服务端引擎实现任意训练数据生成流程支持异步训练和Agentic工作流追求极简主义与高性能[34][35][40] Secondary Development框架 - Agentic RL智能体强化学习框架包括verl-agent基于veRL构建专门为Agentic RL优化支持异步Rollout和训练以及agent-lightning实现训练与推理解耦更容易支持多智能体训练关键技术包括异步生成经验回放环境接口标准化[46][47][49][50][52] - Multimodal RL多模态强化学习框架包括VLM-R1和EasyR1基于veRL开发用于训练视觉语言推理模型以及DanceGRPO专门用于扩散模型如文生图的RL训练关键技术包括多模态数据加载器跨模态奖励设计如CLIP分数针对扩散模型的特殊采样策略ODE/SDE转换[54][55][57][58] - Multi-Agent RL多智能体强化学习框架包括MARTI由清华C3I提出的首个高性能开源LLM多智能体强化训练与推理框架通过统一框架整合多智能体推理与强化学习结合高性能引擎与灵活架构为复杂协作任务提供高效可扩展解决方案兼容单智能体RL框架如OpenRLHF veRL 支持vLLM 以及Agent-Lightning其解耦设计便于扩展到多智能体场景关键技术包括集中训练分散执行CTDE基于自然语言的信用分配如LLaMAC多智能体策略优化如MAGRPO[60][62][63] RL基础设施发展趋势 - 标准化与模块化 RL基础设施正从手工作坊走向标准化流水线框架设计越来越模块化将Rollout Reward Train等环节解耦便于复用和扩展库不再绑定单一推理后端支持vLLM SGLang等[65] - 异步化成为大规模RL必备特性为应对Rollout和Train之间巨大计算不对称性异步架构如AReaL OpenRLHF slime等已成为关键[65] - 推理引擎至关重要 vLLM和SGLang等高性能推理引擎的出现极大加速了Rollout过程成为现代RL框架标配[66] - 从RLHF向Agentic RL演进早期库如TRL主要为单步任务设计新一代库内置强大环境抽象以支持复杂多步交互[66] - 分布式训练框架选择 Megatron-LM在超大规模模型训练中性能最佳 FSDP/FSDP2因与PyTorch集成好广受欢迎 DeepSpeed在内存优化上表现出色成熟库通常支持多种方案[66] - 场景驱动的二次开发通用框架如veRL OpenRLHF为生态奠定基础针对特定场景如多模态多智能体GUI的二次开发框架解决垂直领域独特挑战[66] - Orchestrator重要性由于RL涉及多个分布式组件如训练框架推理框架环境使用Ray等进行任务编排资源管理和容错已成为行业共识[66]

智谱终于发布GLM-4.5技术报告，从预训练到后训练，细节大公开

机器之心· 2025-08-11 07:12

GLM-4.5模型发布与市场反响 - 智谱开源新一代旗舰模型GLM-4.5及轻量版GLM-4.5-Air 首次在单个模型中实现推理、编码和智能体能力的原生融合并在12项全球测试中综合成绩排名全球第三国产和开源模型中均位列第一 [2] - 模型发布后引发海内外AI圈热议官方推文浏览量突破120万 GLM-4.5连续7天登顶Hugging Face趋势榜单 [2] - 与OpenAI开源的gpt-oss系列对比测试中 GLM-4.5整体表现保持领先优势 [6] 技术架构创新 - 采用MoE混合专家架构通过"瘦高"结构设计（减少宽度增加深度）提升推理能力隐藏维度5120配备96个注意力头（常规模型的2.5倍） [21] - 引入Muon优化器加速收敛配合QK-Norm技术增强注意力稳定性加入MTP层实现推测解码提升推理效率 [24] - 参数规模达3550亿激活参数320亿包含89层MoE和1层MTP 在同类模型中计算效率显著提升 [23] 训练方法论突破 - 采用多阶段训练方案：15T通用语料预训练+7T代码/推理语料训练中期训练将序列长度从4K扩展至128K [25][27] - 预训练数据覆盖网页/社交媒体/学术/代码等多源信息第二阶段重点上采样编程与科学数据强化推理能力 [28] - 中期训练分三环节：代码仓库级训练（32K序列）、合成推理数据训练、长上下文与智能体训练（128K序列） [30] slime强化学习框架 - 专为大模型RL训练设计的开源框架支持同步/异步混合训练模式 GitHub已获1200星 [31][32] - 核心模块包括训练（Megatron）、rollout（SGLang+Router）和Data Buffer 实现环境交互与训练解耦 [35] - 采用FP8混合精度推理加速数据生成同时保持BF16训练精度显著提升智能体任务训练吞吐量 [34][48] 性能基准测试表现 - 智能体任务：TAU-bench表现接近Claude Sonnet4 BFCL-v3总分第一 BrowseComp优于Claude Opus4 [44][45] - 推理能力：AIME24/SciCode超越OpenAI o3 七项基准平均表现优于Claude Opus4 接近DeepSeek-R1 [47][50] - 代码能力：SWE-bench Verified超越GPT-4.1 Terminal-Bench超过Claude Sonnet4 成为其最强竞品 [52][53] 行业影响与意义 - 技术报告完整披露从架构设计到训练方法的实现路径为国产开源大模型发展提供重要参考 [56] - 首次在单一模型中实现ARC（智能体/推理/代码）能力统一推动LLM向通用问题求解器进化 [18][19] - 开源生态建设成效显著模型与框架同步开放形成完整技术闭环 [14][32]