Workflow
Rollout
icon
搜索文档
被轻视的Rollout过程,是后训练的性能瓶颈,还是RL的ROI突破口?
机器之心· 2025-11-30 01:30
强化学习后训练中的Rollout环节 - 2025年,强化学习已成为大语言模型后训练的核心技术路径,研究重心从预训练规模竞赛转向后训练能力深化[5][6] - 在RL后训练的“生成-评估-更新”流程中,Rollout环节是影响训练效率和效果的关键因素,也是计算消耗最大的环节[6] - 多项研究发现Rollout环节占据了RL后训练时间的绝大部分:港科大和阿里团队的分析发现其占70%,字节和上海交大的研究证明其占84%-91%[6] - Rollout在LLM语境下特指模型基于当前策略,从某个提示开始生成完整或部分回答序列的过程[7] - Rollout与推理共享自回归生成的核心技术逻辑,但目标不同:推理追求单次生成的准确性与效率,而Rollout旨在为训练提供多样化、有价值的轨迹样本[7] Rollout对训练效果的影响与质量重要性 - Rollout的轨迹质量直接决定RL训练的最终效果,劣质轨迹会导致模型陷入局部最优,优质轨迹则能激活模型的探索能力与推理潜力[8] - 阿里巴巴团队研究发现,在数学推理RL训练中,采用随机采样Rollout的模型,其轨迹与任务目标对齐度仅41%,即使训练步数达到优质轨迹组的2倍,在MATH数据集上的准确率仍低18%[8] - 蚂蚁团队在万亿参数模型的训练中发现,未经过滤的Rollout轨迹会导致梯度计算偏差指数级累积[8] Rollout的计算效率挑战与优化探索 - Rollout环节的计算效率困境,本质是“生成逻辑的串行特性”与“任务分布的长尾特性”之间的根本性矛盾[9] - “长尾延迟”指少量长请求占据多数耗时的分布失衡现象,这导致所有GPU需要等待最慢的请求,大量设备在等待期内处于空闲,产生计算资源“泡沫”[9] - 英伟达的研究者在2025年11月提出了BroRL范式,通过扩展Rollout规模的方式让该环节更具计算与数据效率,能在更短时间内完成更高质量的训练,且扩展上限更高[9] 行业动态与未来展望 - 2026年被提及为大模型可能实现未知“能力拐点”的关键年份,并探讨其能否实现可持续的业务增长[2] - 行业关注AI能否在2026年实现独立工作8小时,以及OpenAI内部开始强调“进入战时状态、不再是默认赢家”的竞争态势[2] - 企业优先的Anthropic被讨论是否会在OpenAI之前实现盈利[2] - Google和Meta投入的巨额资本支出能带来多少“非泡沫”的AI增长成为行业焦点[2] - OpenAI的Sam Altman认为“极速”比“廉价Token”更值钱,专家级用户愿为“毫秒级延迟”而非“低成本Token”买单[2] - “任务连贯性”正在取代“准确率”成为新的评价指标[2] - 在万物互联时代,OpenAI致力于打造一台“断网”也能使用的新计算机[2] - 有观点认为人类精心设计的智能体工作流,反而是阻碍模型智力涌现的最大绊脚石,“Let it figure it out”被视为顶级AI智能体的最终解决方案[2]