ROCK - 财报，业绩电话会，研报，新闻

ROCK

搜索文档

量子位· 2025-11-26 06:37

阿里开源项目ROCK的核心价值 - 解决了智能体无法在真实环境中规模化训练的难题，为AI执行复杂任务提供了标准化的“实战演练场”[1][2][3] - 与此前开源的强化学习训练框架ROLL协同，构成了完整的智能体训练闭环，打通了从单机实验到集群大规模训练的链路[4][5] - 该组合推开了Agentic AI规模化应用的大门，让开发者不再被底层基础设施困扰[5] 环境服务的重要性与行业趋势 - 大语言模型正经历深刻范式转变，前沿模型已进化为能与外部环境深度交互的Agentic模型，从“能说”扩展到“会做”[6][7] - 训练高效的Agentic模型是一个系统工程，需要四块拼图：大脑（LLM）、考卷（任务描述）、教练（RL框架）和训练场（环境服务）[8] - 环境服务的稳定性和效率直接决定了模型的Scaling潜力，其性能瓶颈往往成为整个训练流程的“卡脖子”问题[9][10] ROLL框架的功能特性 - 基于Ray构建，专为大规模LLM强化学习打造，覆盖从小规模预研到数千卡百亿参数生产环境的完整RL优化流程[12] - 提供环境异步交互和冗余采样等功能，采用极简的GEM标准接口，通过env.reset和env.step两个核心方法大幅简化交互过程[13][14] - 简洁的设计使得新业务应用能快速适配，环境开发者只需实现标准方法即可无缝接入训练体系[15] ROCK项目的核心能力 - 核心使命是规模化，旨在击碎传统训练中因资源限制导致的硬性天花板[19][21][24] - 基于Ray构建，能将计算集群抽象为弹性伸缩的“环境资源池”，支持分钟级别自动调度和拉起成千上万个并行训练环境[25] - 支持在同一集群中同时运行同构与异构环境，既满足大规模重复探索需求，也提升Agent在不同任务间的泛化能力[27][28] ROCK的调试与部署优势 - 提供程序化的Bash交互能力，通过SDK和HTTP API开放Linux Shell功能，使开发者可像操作本地终端一样与成百上千个远程Sandbox深度交互[32][33] - 设计“一次编写，随处运行”的方案，支持本地独立运行、本地集成调试和云端规模化部署三种模式，确保开发与生产环境一致性[37][38][39] - 具备企业级稳定性，包括故障隔离、精细资源调度和快速状态管理，按阿里内部核心基础设施标准构建[42][43][44][45] ModelService的架构创新 - 作为“中间人”完美实现了解耦，通过“提问-拦截-回答”三步让Agent和ROLL各司其职[50][51] - 带来四大好处：彻底解耦、控制权在手、节约成本以及兼容性强[52][57] - 该架构将昂贵的GPU资源集中用于ROLL的中心推理服务，而ROCK Sandbox可在低成本的CPU实例上大规模运行，极大降低训练成本[57] 对行业的影响与总结 - ROCK与ROLL的组合从根本上解决了Agentic模型训练中的两大核心挑战：高效的学习算法和可规模化的环境服务[55] - 为开发者提供了标准化解法，包括弹性扩展、无缝衔接、极致稳定和架构革新四大优势[58] - 使Agentic模型训练从少数顶尖团队的黑科技，转变为每个开发者都能上手的标准工业流程[56]

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

机器之心· 2025-11-10 04:40

文章核心观点 - 阿里巴巴ROLL团队联合学术机构推出“3A”协同优化框架，旨在推动强化学习用于大语言模型迈向高效、精细与可解释的新范式 [1] - “3A”框架包括Async架构、Asymmetric PPO和Attention机制，三者深度耦合而非孤立技术堆砌 [1] - 该框架通过系统与算法层面的创新，显著提升RL4LLM的训练效率、资源利用率和模型性能 [1][5][46] Async架构 - ROLL Flash通过细粒度并行与采样-训练解耦两大原则，实现生成、环境交互、奖励计算与模型训练的全链路异步执行 [12] - 系统在百卡规模下展示近乎线性扩展能力，使用8倍GPU资源带来7.6倍效率提升 [16][25] - 在Agentic任务中获得最高2.72倍端到端吞吐提升，在RLVR任务中提速2.24倍 [25] - 引入异步比机制，在多数场景下以极小代价获得接近完整的性能提升，如异步比为2时效果最佳 [37] Asymmetric PPO - AsyPPO首次系统论证评论家参数规模与其价值估计能力无必然关联，仅需两个小型评论家即可提升性能 [46][51] - 通过非重叠的提示级数据划分训练多个轻量critic，有效校正优势估计偏差并提升训练稳定性 [55] - 部署更轻量，减少一个标准高性能服务器节点，单步训练耗时缩短约20秒 [62] - 可无缝集成到现有RL4LLM工具链，具备极强工程落地潜力 [63] Attention机制 - 将Attention重新定义为揭示模型推理过程内在逻辑的结构化蓝图，而非单纯的计算中间产物 [2][67] - 基于注意力动力学设计推理结构感知的动态奖励分配机制，使优化目标与模型内生推理节奏精准对齐 [2][65] - 通过Windowed Average Attention Distance和Future Attention Influence量化指标分析模型推理节奏 [72][75] - 在数学推理基准上一致优于GRPO基线，如在AIME25上提升+5.0个百分点，在AMC23上提升+6.3个百分点 [87] 系统关键技术 - 队列调度在不同批大小配置下均能稳定减少生成时间，在128*8配置下带来2.5倍加速 [21][24] - 候选生成并行化在多候选生成场景下最高带来1.95倍性能提升 [28] - 环境交互异步化在ALFWorld真实环境测试中带来1.58倍加速 [31] - 冗余环境部署在真实Agentic环境中带来额外7%-16%的吞吐提升 [32] 实际影响与效益 - 提升研发效率，通过缩短训练时间加速模型迭代与研究周期 [43] - 降低硬件成本，在同等时间内使用更少资源达到训练目标 [43] - 探索模型极限，使研究者有能力进行更复杂模型、更长序列和更大规模数据的实验 [43] - 推动RL4LLM民主化，使中小团队和初创公司也能高效开展基于PPO的LLM对齐与推理优化研究 [63]