强化学习

搜索文档
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
量子位· 2025-09-26 02:08
为此,研究团队提出了 SimpleVLA-RL 。基于veRL框架,他们实现了针对VLA模型的交互式轨迹采样与并行仿真渲染机制。 SimpleVLA-RL团队 投稿 量子位 | 公众号 QbitAI 视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。 然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。 实验结果表明,该框架在LIBERO与RoboTwin等标准基准测试中均实现了 SoTA 的性能。更为关键的是,即便在有限数据的条件下, SimpleVLA-RL依然能够训练出表现优异的模型并具备极高的泛化能力。 在 "单轨迹 SFT"(每个任务仅1条演示数据)场景下,应用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率 从48.9%提升至96.9% ,长时序任务LIBERO-Long 从17.3%提升至91.7% 。 降低对大规模演示数据的依赖,提升数据效率; 增强模型在分布偏移场景下的泛化能力; 实现高效的Sim-to-Real迁移,提升真实世界任务性能。 SimpleVLA-RL:端到端在线训练方案 VLA模型作为机器人操控领域的重要研究范式,旨 ...
从现有主流 RL 库来聊聊RL Infra架构演进
自动驾驶之心· 2025-09-25 23:33
强化学习在大模型发展中的核心作用 - 强化学习已从辅助技术跃升为驱动大模型能力跃迁的核心动力 正经历从单轮静态任务向多轮交互式智能体训练的关键范式转移 目标是构建能在复杂动态环境中通过多步观察思考行动与反馈完成任务的智能体 这是通往AGI的关键一步[2] - 强化学习正在重塑大模型能力边界 不仅是弥补数据瓶颈的利器 更是构建下一代通用智能体的核心方法论 背后依赖日益成熟的RL基础设施生态[2] 现代RL基础设施架构范式 - 核心架构围绕Generator和Trainer两大组件 Generator负责让LLM与环境交互生成轨迹并计算奖励 计算开销大 设计灵活性和环境抽象能力至关重要 Trainer负责根据轨迹数据使用PPO和GRPO等算法更新模型参数 性能取决于分布式训练后端如FSDP DeepSpeed Megatron[6] - 生成器-训练器架构配合Ray等分布式协调层构成大模型强化学习系统的黄金标准 RL训练计算成本极高 涉及大规模并行推理和参数更新 优秀RL库需高效稳定可扩展地协调这两个阶段[6] Primary Development框架 - TRL是Hugging Face官方推出的最开箱即用的RL框架 更像训练器集合而非复杂分布式系统 算法支持包括SFT PPO DPO GRPO IPO KTO Online DPO REINFORCE++等 集成transformers库 支持vLLM加速Rollout 训练后端依赖accelerate库 支持DDP DeepSpeed ZeRO FSDP API简洁文档丰富 适合快速原型和中小规模实验 但不支持环境交互 生成与训练耦合紧[9][10][14] - OpenRLHF由OpenLLMAI 字节 网易等联合开发 旨在提供高效可扩展的RLHF和Agentic RL框架 训练后端基于DeepSpeed ZeRO-3和Auto Tensor Parallelism 代码结构清晰 是许多二次开发框架的基础[11][15] - veRL由字节Seed团队开发 是功能最全面算法支持最广泛的框架之一 算法支持包括PPO GRPO GSPO ReMax REINFORCE++ RLOO PRIME DAPO DrGRPO等 架构采用HybridFlow控制器 支持多轮训练和工具调用 目前生成与训练耦合 后续规划异步解耦 集成vLLM和SGLang等推理后端 训练后端支持FSDP/FSDP2和Megatron-LM 奖励支持模型奖励和函数规则奖励如数学代码 追求全能 涵盖所有主流RL算法和应用场景 是前沿算法研究和复杂任务如多模态多智能体实验的理想选择 配置较复杂[16][22] - AReaL由蚂蚁开源 专为大规模高吞吐推理模型RL设计 核心是完全异步架构 算法支持包括PPO GRPO REINFORCE++ RLOO DPO IPO KTO等 架构支持异步Pipeline RLHF和异步Agentic RL模式 后者通过Agent类API支持多轮对话 深度集成vLLM用于高吞吐Rollout 核心创新是完全异步设计 通过可中断Rollout Worker经验回放缓冲区和并行奖励服务将生成与训练彻底解耦 使用SGLang进行Rollout Ray进行集群管理 训练后端主要使用PyTorch FSDP 也支持Megatron 为追求极致训练效率和可扩展性而生 其轻量版AReaL-lite提供更易用API[20][21][28] - NeMo-RL是NVIDIA官方推出的面向生产的RL框架 集成在NeMo生态系统中 与NVIDIA硬件GPU和软件栈CUDA TensorRT深度集成 提供从RM训练到PPO的端到端Pipeline 设计优雅接口定义清晰 性能和扩展性兼顾[24][29] - ROLL是阿里开源专注于大规模LLM RL的框架 强调异步和Agentic能力 算法支持集成了GRPO PPO REINFORCE++ TOPR RAFT++ GSPO等多种先进RL算法 架构采用基于Ray的多角色分布式设计 将策略生成价值评估奖励计算等任务解耦到独立Worker角色中 实现灵活资源调度异步训练和复杂任务编排 深度集成SGLang和vLLM作为高性能推理后端加速策略生成Rollout 训练后端主要基于DeepSpeed ZeRO和Megatron-LM 5D并行 未来支持FSDP2 奖励通过模块化奖励工作者RewardWorker处理奖励计算 支持验证器沙盒LLM-as-judge等多种奖励源 构建灵活奖励路由机制 面向多样化用户 高度可配置接口丰富[30][36] - slime由清华智谱开源 是轻量级专注于将SGLang与Megatron无缝连接的框架 架构强调可扩展性和生产级编排 支持异步Rollout非Colocate放置等 训练后端支持Megatron-Core和DTensor FSDP2 集成支持使用TensorRT-LLM和vLLM进行rollout 通过自定义数据生成接口和服务端引擎实现任意训练数据生成流程 支持异步训练和Agentic工作流 追求极简主义与高性能[34][35][40] Secondary Development框架 - Agentic RL智能体强化学习框架包括verl-agent基于veRL构建 专门为Agentic RL优化 支持异步Rollout和训练 以及agent-lightning实现训练与推理解耦 更容易支持多智能体训练 关键技术包括异步生成经验回放环境接口标准化[46][47][49][50][52] - Multimodal RL多模态强化学习框架包括VLM-R1和EasyR1基于veRL开发 用于训练视觉语言推理模型 以及DanceGRPO专门用于扩散模型如文生图的RL训练 关键技术包括多模态数据加载器跨模态奖励设计如CLIP分数针对扩散模型的特殊采样策略ODE/SDE转换[54][55][57][58] - Multi-Agent RL多智能体强化学习框架包括MARTI由清华C3I提出的首个高性能开源LLM多智能体强化训练与推理框架 通过统一框架整合多智能体推理与强化学习 结合高性能引擎与灵活架构 为复杂协作任务提供高效可扩展解决方案 兼容单智能体RL框架如OpenRLHF veRL 支持vLLM 以及Agent-Lightning其解耦设计便于扩展到多智能体场景 关键技术包括集中训练分散执行CTDE基于自然语言的信用分配如LLaMAC多智能体策略优化如MAGRPO[60][62][63] RL基础设施发展趋势 - 标准化与模块化 RL基础设施正从手工作坊走向标准化流水线 框架设计越来越模块化 将Rollout Reward Train等环节解耦 便于复用和扩展 库不再绑定单一推理后端 支持vLLM SGLang等[65] - 异步化成为大规模RL必备特性 为应对Rollout和Train之间巨大计算不对称性 异步架构如AReaL OpenRLHF slime等已成为关键[65] - 推理引擎至关重要 vLLM和SGLang等高性能推理引擎的出现极大加速了Rollout过程 成为现代RL框架标配[66] - 从RLHF向Agentic RL演进 早期库如TRL主要为单步任务设计 新一代库内置强大环境抽象以支持复杂多步交互[66] - 分布式训练框架选择 Megatron-LM在超大规模模型训练中性能最佳 FSDP/FSDP2因与PyTorch集成好广受欢迎 DeepSpeed在内存优化上表现出色 成熟库通常支持多种方案[66] - 场景驱动的二次开发 通用框架如veRL OpenRLHF为生态奠定基础 针对特定场景如多模态多智能体GUI的二次开发框架解决垂直领域独特挑战[66] - Orchestrator重要性由于RL涉及多个分布式组件如训练框架推理框架环境 使用Ray等进行任务编排资源管理和容错已成为行业共识[66]
AI正在偷走白领工作,OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗
36氪· 2025-09-25 09:32
AI行业投资与研发投入 - Anthropic和OpenAI等公司计划每年投入10亿美元专项资金用于AI训练[1][3][4] - OpenAI预计2030年数据相关投入将增至80亿美元[4] - 行业在后训练阶段预算中RL环境占比目前低于10%但预计明年将显著提升[10] AI训练方法创新 - 使用强化学习环境模拟真实办公软件如Salesforce、Zendesk、Microsoft Excel等[3][12][13] - 通过拆解任务步骤并建立评估标准验证AI执行效果[8][9] - 采用人类专家示范任务执行过程生成训练样本[18][19] 人力资源成本趋势 - Labelbox公司20%专家时薪超90美元10%超120美元[11] - 预计未来18个月内专家报酬将升至每小时150-250美元[11] - 雇佣对象从学生转向NASA数据科学家、私募副总裁等资深专业人士[15][16][22] 技术应用场景拓展 - AI学习领域涵盖医学、法律、金融等专业领域[17][20][22] - 训练内容包含折现现金流分析、医疗记录处理等复杂任务[17][23] - 目标开发能操作实际办公软件的AI智能体[4] 行业发展预期 - OpenAI高管预测整个经济体系将演变为RL机器[1][21] - AnthropicCEO称AI可能在未来1-5年内取代50%入门级白领职位[1] - 行业认为3年内可能出现白领岗位大规模替代[1]
微信WeChat-YATT横空出世,腾讯强化学习布局剑指何方
搜狐财经· 2025-09-24 09:56
WeChat-YATT技术特点 - 基于Megatron-Core和SGLang/vLLM研发 专注强化学习和多模态模型训练[2] - 显著优化强化学习场景参数更新效率 提供灵活多模态数据融合接口 通过模块化设计降低分布式训练门槛[2] - 命名"Yet Another Transformer Trainer"体现腾讯在AI基础设施层的长期投入决心[6] 技术对比优势 - 相比Meta PyTorch在强化学习支持更胜一筹 对比Google JAX在中文场景和多模态处理具明显优势[4] - 与同类强化学习框架Ray RLlib相比 深度整合微信生态独具特色[4] - 特别强调易扩展性 满足大模型快速迭代需求 参数规模突破万亿门槛后训练框架灵活度决定竞赛先机[4] 腾讯AI战略布局 - 开源WeChat-YATT是构建技术生态圈的重要步骤 类似Google开源TensorFlow的路径[2] - 结合申请微信AI服务平台商标 混元大模型全面落地等动作 形成底层技术突破与上层应用落地的双轮驱动[7] - 微信作为十亿级流量入口需强大AI能力支撑 混元大模型持续进化需高效训练工具 WeChat-YATT填补关键环节形成从基础设施到终端应用的完整链条[7] 强化学习战略价值 - 重点投入强化学习训练库 预示在游戏 推荐系统 自动驾驶等核心领域的下一代AI应用场景布局[7] - 大模型时代竞争本质是基础设施竞争 自主可控训练框架将成为头部企业标配[7]
寻找你的AI同频搭子|「锦秋小饭桌」活动上新
锦秋集· 2025-09-23 09:44
AI Agent@深圳 09.26 报名方式: 扫描海报二维码,关注"锦秋集"公众号,后台回复 "锦秋小饭桌" ,即刻报名! 立秋季节,最适合找搭子一起,边贴秋膘、边聊技术创新。 吃进去的是美味,聊出来的是灵感。 今天上新三场 9-10 月活动,如有戳中你的兴趣,或是你正在从事的方向,欢迎报名加入! 具身智能@北京 10.10 机器人派对@深圳 10.17 「锦秋小饭桌」 Vol.32 深圳 AI Agent 专场 TIME 2025.09 .26 18:30 ADD 深圳 吃饱了 咱们一起 去改变世界! 扫码报名 解锁餐桌暗号 吃饱了 上白 咱们一起 饭泉 秋 去改变世界! r均11 1 k = 11 1 22 ' '坤'人小以示] VU.JJ 具身智能系列专场 TIME - 2025.10.10 18: 30 ADD 北京 三元桥 扫码关注"锦秋集" 后台回复"锦秋小饭桌"即刻报名 吃饱了 咱们一起 去改变世界! 地 锦 秋 X A 精 小 饭 酸 馆 桌 「锦秋小饭桌」 Vol.34 深圳机器人派对 TIME 2025.10 .17 18:00 ADD 深圳 系——欢迎点开往期回顾,找到你感兴趣的话题! ...
进击新能源第一阵营,“增程豪华轿车新标杆”别克至境L7全国首秀
中国汽车报网· 2025-09-23 05:51
9月15日,备受关注的新能源智能豪华轿车——至境L7首次公开亮相。作为别克高端新能源子品牌"至境"的首款旗舰轿车,至境L7融汇别克百年积淀和 百亿资源投入,诞生于百万级"逍遥"超级融合架构,是目前行业最强的增程豪华轿车。至境L7采用顶级"真龙"增程技术,率先搭载"逍遥智行"辅助驾驶系 统,全球首发上车基于端到端"强化学习"的Momenta R6飞轮大模型,以及高通最新一代SA8775P芯片,带来行业第一梯队的智电体验。此外,至境L7还拥 有越级豪华底盘和豪华舒享座舱,以及对标百万级豪车的配置。目前,至境L7已到达全国别克经销商展厅,并开启早鸟计划:在9月28日前下订,即可享终 身免费保养(详询别克官网或别克授权经销商)。 全新别克"逍遥"超级融合整车架构 别克至境L7已到达全国别克经销商展厅,并开启早鸟计划 增程发明者再次定义增程 "真龙"增程破解行业痛点 至境L7基于全新别克"逍遥"超级融合整车架构打造,汇集该架构下驱动、辅助驾驶、豪华舒适等领域的王牌技术于一身,可谓"出道即巅峰"。 依托通用汽车在增程技术上的深厚积淀,并结合泛亚在新能源驱动领域强大的本土化研发实力,首发搭载行业顶级"真龙"增程系统,完美破 ...
Nvidia砸千亿美元助力OpenAI,马斯克狂飙造全球最大AI集群 | Jinqiu Select
锦秋集· 2025-09-23 04:44
当基础能力持续进步时,创业的关键在于找到新的应用场景和差异化路径。也许是某个高频的行业环节,也许是某种全新的交互方式,也可能是模型与硬件、人与人 的结合。初创公司同样需要在自己的条件下,找到独特而极致的打法。 今天,AI领域迎来一桩惊天动地的消息:Nvidia 宣布将向 OpenAI 投入高达 1000 亿美元 的战略投资,携手打造至少 10 吉瓦(gigawatts)的数据中心基础设施,用于 支撑下一代模型的训练与部署。 这一动作,标志着模型层玩家的AI 战争从算法、产品层面,真正迈入了"基础设施+算力"的硬核较量阶段。 与此同时,另一边的 Elon Musk 正以一种近乎"超现实"的速度布局算力版图:xAI 正在孟菲斯、密西西比等地加速建设 Colossus 系列 AI 集群,目标是在最短时间内实 现数百兆瓦甚至接近吉瓦级别的集群能力。电站、涡轮机、跨州供电 ──这些支撑算力的根基,都在高强度投入中被快速铺设。 模型层大玩家依然在坚定地押注模型,资本、算力、速度也成为顶级玩家已经形成了难以撼动的护城河。 对大量非模型层的AI创业者来说,这无疑都是好消息。 无论是OpenAI的超大规模训练,还是xAI的集群 ...
具身智能之心近20个交流群来啦!欢迎加入
具身智能之心· 2025-09-23 04:00
欢迎加入我们的技术交流群,和大家一起聊聊技术和行业。添加小助理微信AIDriver005,备注:加群 +昵称+研究方向。 具身智能之心技术交流群成立了,近20个子方向,欢迎和我们一起承担具身领域未来领导者的角色。如 果您是涉及人形机器人、四足、机械臂等本体,正在从事vla、大模型、vln、强化学习、移动操作、多 模态感知、仿真、数据采集等方向。 ...
灵巧手厂商困在夹缝里
投资界· 2025-09-23 02:32
以下文章来源于AI科技评论 ,作者丁莉 AI科技评论 . 雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。 价格战过早升级。 作者 | 丁莉 编辑 | 陈彩娴 来源 I AI科技评论 (ID:aitechtalk) "关于灵巧手,你可以认为所有 d emo 都是假的。一切都是过拟合的结果,自主完成任务 的能力基本不存在。从业者和非从业者对技术进展的认知差距过大,需要一些可视化的 东西来弥合这种鸿沟。"一位业内人士告诉AI科技评论。 这一说法后来得到了多方认同。放眼刚刚过去的 WAIC 和 WRC 两个大会,预编程仍是 主流。 (目前已发布灵巧手产品的公司,AI 科技评论整理) 上下游夹击,押注三大方向 具身智能的聚光灯依旧灼目,灵巧手已经被推到了台前。 这已经是共识。随着机器人操作能力成为焦点,灵巧手日益被提上日程。这个赛道从阒 无人迹到人满为患只用了短短半年多时间,还有大批玩家在持续涌入中。AI科技评论梳 今年以来,具身智能的焦点突然从本体延伸至灵巧手——上游零部件、下游本体纷纷下 场,灵巧手初创公司遭受两面夹击。 投资者也多方下注,主要押注三个特征:最AI、最像人手、最早量产。 但智能不足仍是最 ...
放榜了!NeurIPS 2025论文汇总(自动驾驶/大模型/具身/RL等)
自动驾驶之心· 2025-09-22 23:34
自动驾驶 - FutureSightDrive提出时空思维链技术用于自动驾驶视觉思考[2] - AutoVLA开发端到端自动驾驶视觉-语言-动作模型 具备自适应推理和强化微调能力[4] - 阿里与西交联合研发FSDrive系统 论文编号2505.17685[6] - UCLA团队推出AutoVLA框架 论文编号2506.13757[7] - 清华AIR与北航等机构开发双边网格驾驶场景高斯泼溅技术[13] 视觉感知推理 - OmniSegmentor构建多模态语义分割灵活学习框架[16] - 水牛城大学与中科院研发YOLOv12注意力中心实时目标检测器 论文编号2506.05280[18] - 南开大学程明明团队提出DFormer模型 论文编号2509.15096[19] - PixFoundation 2.0研究视频多模态大模型在视觉定位中的运动使用机制 论文编号2509.02807[20][33] 视频理解 - DeepTraverse采用深度优先搜索网络实现算法化视觉理解 论文编号2506.10084[25] - 英伟达与台湾大学开发ThinkAct视觉-语言-动作强化推理系统 论文编号2507.16815[27] 图像视频生成 - Fast and Fluent Diffusion通过卷积解码和拒绝微调提升扩散语言模型效率 论文编号2509.15188[34][63] - AutoEdit实现图像编辑超参数自动调优[31] - OmniSync通过扩散变换器实现通用唇形同步 论文编号2505.21448[36][38] 具身智能 - DeepMind推出自改进具身基础模型 论文编号2509.15155[46][50] - 复旦与上交等机构开发ForceVLA力感知混合专家模型 用于接触式操作 论文编号2505.22159[48][51][64] 大模型训练 - Scaling Offline RL通过高效表达捷径模型扩展离线强化学习 论文编号2505.22866[40][44] - 研究发现在机械推理中LLM世界模型存在输出层脆弱性 论文编号2507.15521[40][62] 大模型微调 - 卷积解码和拒绝微调技术提升扩散语言模型性能 论文编号2509.15188[42][63] - 联邦学习框架实现自适应LoRA专家分配与选择 论文编号2509.15087[42][55] - 康奈尔大学开发差分隐私联邦低秩适配技术 论文编号2507.09990[44] 医疗诊断评估 - 构建3D肿瘤中心视觉问答医疗基准测试VLM诊断能力 论文编号2505.18915[39][44][57] - DeepTumorVQA项目评估视觉语言模型临床诊断准备度[39][44][57] 文档理解与安全 - STEM-POM评估语言模型在文档解析中的数学符号推理能力 论文编号2411.00387[55][65] - AgentMisalignment测量基于LLM智能体的行为错位倾向[55] - 概念级可解释性技术用于审计和引导LLM响应 论文编号2505.07610[54] 代码生成 - SBSC逐步编码方法提升数学奥林匹克竞赛性能 论文编号2502.16666[60] - 卷积解码和拒绝微调技术优化扩散语言模型代码生成 论文编号2509.15188[60][63] 强化学习 - 强化视觉潜在规划实现视觉-语言-动作推理 论文编号2507.16815[23][27][65] - 扩展离线强化学习通过高效表达捷径模型 论文编号2505.22866[40][44] 持续学习 - 持续学习技术改进多模态大语言模型 论文编号2410.19925[53][56] - 研究分布外泛化在ARC类任务中的挑战 论文编号2505.09716[66] 人机交互 - 实时直观AI绘图系统整合形式与上下文意图增强人类创造力 论文编号2508.19254[54] - 公平摘要技术平衡提取式摘要的质量与多样性 论文编号2411.07521[66]