强化学习(RL)
搜索文档
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
量子位· 2025-12-20 04:20
强化学习是否能够用于Text-to-3D生成,以加强3D自回归模型的逐步推理与生成过程? 3DGenR1团队 投稿 量子位 | 公众号 QbitAI 在大语言模型和文生图领域,强化学习 (RL) 已成为提升模型思维链与生成质量的关键方法。 但当我们将目光转向更为复杂的文本到3D生成时,这套方法还会还管用吗? 近期,一项由 西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学合作 开展 的研究系统性探索了这一重要问 题。 论文链接: https://arxiv.org/pdf/2512.10949 代码链接: https://github.com/Ivan-Tang-3D/3DGen-R1 在LLM推理和2D文生图中,RL已经证明可以显著提升CoT推理能力和生成质量。但 3D物体更长、更稠密、更具几何约束 。 因此相关方向研究常面临这几个问题: Progressive Investigation:四个层次拆解Text-to-3D+RL 1. Reward设计层 1. 奖励如何同时刻画语义对齐、几何一致性和视觉质量? 2. 现有RL算法是否适合自回归式3D生成? 3. 缺乏专门考察"3D推理能力 ...
领域首篇RL+VLA 综述:强化学习如何推动 VLA 走向真实世界?
具身智能之心· 2025-12-19 00:05
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Haoyuan Deng等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 Vision-Language-Action(VLA)模型通过融合视觉、语言与动作,为机器人带来了强大的零样本与跨任务泛化能力。但仅依赖模仿学习的 VLA 在真实世界 OOD 场 景中仍然脆弱,缺乏失败恢复、自主探索与闭环纠错能力。 强化学习(RL)正成为连接 VLA 预训练与真实部署的关键桥梁。 由南洋理工大学、北京邮电大学、清华大学联合推出, 本综述系统梳理了 RL-VLA 在"学习—优化—部署"全生命周期中的核心方法与挑战,并从四个维度构建了 完整技术图景:架构、训练范式、真实世界部署以及评估。 一、RL-VLA 架构:从开环推理到闭环优化 RL 通过奖励驱动的策略更新,使 VLA 从"复现示范"转向"结果导向"的闭环决策: 动作建模 A 论文链接(每月更新) :https://doi.org/10.362 ...
告别“挖矿”逻辑:OpenAI前联合创始人Ilya揭示AI下半场的新赛点
钛媒体APP· 2025-12-16 04:36
文 | 塔猴 作为深度学习领域的灵魂人物、OpenAI前首席科学家,Ilya Sutskever的名字在硅谷几乎等同于"风向 标"。 Ilya指出,人类之所以强大,不在于"刷题量",而在于基于常识的推理与判断力。 当前的AI研发走入了一个误区:我们在制造"做题家",而不是培养拥有真实理解力的"通才"。 赛道切换:当"数据金矿"枯竭 访谈中最具冲击力的观点,莫过于对Scaling Law(规模化法则)的看衰。 在离开OpenAI并创立以安全为核心的SSI(Safe Superintelligence)后,他近期的一场万字访谈,无异于 向火热的AI赛道投下了一枚深水炸弹。 Ilya在访谈中不仅系统性地复盘了AI发展的路径,更抛出了一个令行业震颤的论断:过去几年主导AI发 展的"Scaling Law"(规模化法则)即将触碰到天花板。 这意味着,依靠堆砌算力、喂养数据的"暴力美学"时代正在落幕,AI行业必须从"资源竞赛"重返"范式 创新"的硬核科研时代。 "高分低能"的悖论:强化学习的"诅咒" 尽管大模型在各类Benchmark(基准测试)中的分数屡创新高,但在实际的经济生产中,AI的落地应用 却显得步履蹒跚。Il ...
RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案
机器之心· 2025-12-15 01:44
机器之心报道 机器之心编辑部 近期,强化学习(RL)技术在提升语言模型的推理能力方面取得了显著成效。 然而, 后训练究竟是真正扩展了模型的推理能力,还是仅仅挖掘了预训练中已有的潜力? 目前尚不明确。 一个核心挑战在于现代训练流程缺乏可控性:大规模预训练语料库不够透明,中期训练往往缺乏充分研究,且 RL 目标函数与未知的先验知识之间存在复杂 的交互作用。 为了回答这个问题,来自卡耐基梅隆大学(CMU)的研究者通过构建 基于 GSM-Infinite 的可控合成数据框架 ,在完全解耦的环境下,定量分析了预训 练、Mid-training(中期训练/CPT)和 RL 三者对模型推理泛化能力的因果影响。旨在剥离并独立分析预训练、中期训练以及基于 RL 的后训练各自的因 果贡献。 https://x.com/xiangyue96/status/1998488030836044112 研究者从两个维度对模型进行评估:针对更复杂组合的外推泛化能力,以及跨越不同表层语境的情境泛化能力。利用该框架,研究者调和了关于 RL 有效性 的不同观点。 研究表明: 仅当预训练留有足够提升空间,且 RL 数据针对模型的能力边界(即那些虽具 ...
大模型「有心了」:首个情感大模型Echo-N1,32B胜过200B
机器之心· 2025-12-10 02:09
文章核心观点 - NatureSelect公司旗下Team Echo团队发布了首个情感大模型Echo-N1,提出了一套全新的情感模型训练方法,成功将强化学习应用于主观情感领域,打破了大型语言模型在情感共情能力上的瓶颈 [2][3][9] - 该研究通过创新的“共情的心理物理模型”和“生成式奖励模型”等技术,将玄学的“共情”转化为可计算、可优化的过程,使仅32B参数的模型在多轮情感陪伴任务中取得了显著优于千亿参数商业模型的表现 [10][14][37] 现有模型在情感陪伴领域的问题 - 无法量化情感:用户表达背后细微的情绪信号难以被传统的标量奖励有效捕捉 [7] - 存在奖励黑客问题:模型为获取高分而堆砌华丽辞藻,产生对缓解用户情绪无帮助甚至适得其反的“美丽的废话” [8] - 评测失真:现有的顶尖闭源模型自身也难以区分“像人”与“像AI”的表达,导致评测标准失效 [8] Echo-N1的核心技术创新 - 提出生成式奖励模型:摒弃单一的标量奖励,要求奖励模型在输出前先生成一段逻辑严密的情感推理路径,通过对用户画像进行深度侧写来推导能引发共鸣的回答,显著提升了判别精度 [14] - 训练了两种生成式奖励模型:拟人度奖励用于消除“助手味”,确保回复逻辑自洽且具备“活人感”;共情奖励旨在实现用户特定的深度共情,通过“从公理推定理”的范式处理人类偏好的多样性 [16] - 引入过程性奖励、离散化奖励与参考答案锚定等策略,有效缓解了奖励黑客问题,提升了训练策略模型的稳定性 [15] 评测体系的革命:共情的心理物理模型 - 团队打造了机器共情科学标尺——EPM情感物理模型,将抽象的心理疗愈转化为可计算的物理过程,使共情效果成为可视化追踪的能量轨迹和可计算的物理功 [19][22][23] - 构建了“拟人化认知沙盒”:这是一个由模拟人类“中央执行脑区”统筹的多智能体协作系统,能够动态、基于环境反馈地进行决策,实现多轮鲜活的复杂心智模拟,用于残酷而真实的社会共情能力测试 [24][25] 模型性能测试结果 - 在覆盖30个高难度心理场景的压力测试中,未经后训练的基座模型Qwen3-32B通过率为0%,其EPM轨迹显示其不仅无法提供情感支持,反而可能滋生用户更负面的情绪 [26] - 千亿参数级别的商业模型Doubao 1.5 Character在测试中成功率仅为13.3% [27] - 仅32B参数的Echo-N1模型在多轮情感陪伴任务中的胜率达到46.7%,远超Doubao 1.5 Character的13.3% [10] - 在综合评测中,Echo-N1最终得分为73.54分,远超Doubao的42.95分和基座模型Qwen3-32B的29.66分 [33][34] 行业影响与意义 - 研究证明,真实的情感共情能力并非单纯通过堆砌参数就能涌现,而是需要专门、科学的训练范式 [28] - 该工作为强化学习在主观、不可验证领域的应用开辟了新的可能性,使AI的“情商”成为一种可以被数学建模和优化的硬核能力 [37][38] - 这项技术让较小参数的模型具备了越级挑战超大参数模型的共情能力,为未来开发更具温度、更人性化的人工通用智能指明了方向 [36][38]
他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力
量子位· 2025-12-07 09:00
AI大模型竞争焦点转移 - 行业竞争焦点正从预训练和数据红利,转向强化学习(RL),RL正从“锦上添花”变为大模型进化的主战场 [1][2][3] - 证据包括:DeepSeek V3.2的RL训练算力投入已超过预训练的10%,且性能曲线仍在上升;OpenAI的o系列、Claude的推理能力及Gemini的多模态表现背后均有大规模RL支撑 [2][10] 万亿参数RL训练的成本挑战与突破 - 在万亿参数模型上进行全参数RL训练成本极高,需要上千张顶级GPU、训练周期数周,形成资源垄断,绝大多数团队无法负担 [4][11] - Mind Lab团队取得突破,实现了全球首个在1T参数模型上的LoRA高效强化学习训练,将GPU消耗降低90% [5] - 该方案并非简单的工程优化,而是训练范式的根本性转变,相关代码已由NVIDIA Megatron-Bridge和Seed verl官方合并并开源 [6] 技术方案:LoRA RL在万亿参数MoE模型上的实现 - 核心解法:采用LoRA进行参数高效适配,配合专为万亿参数MoE模型设计的混合并行引擎,将RL计算量降至十分之一且性能不打折 [13] - 在Kimi K2模型上的验证显示,仅使用64张NVIDIA H800 GPU即可完成万亿参数RL训练 [14] - 验证取得三项关键成果:1) GPU消耗仅为传统全参数RL的10%左右;2) 训练稳定收敛;3) 在提升特定任务表现的同时,保留了基座模型的通用能力 [18][19][20] 克服MoE架构下的技术难题 - 在MoE架构上应用LoRA RL面临三大挑战:路由不均衡、通信压力爆炸、并行布局复杂 [21][22] - Mind Lab的解决方案是设计了一套混合协同并行引擎,统一调度Tensor、Pipeline、Expert、Sequence四种并行方式,并将并行视为可调度资源 [26] - 针对训练与推理使用不同后端导致的策略不匹配问题,引入了截断重要性采样比率进行显式修正,以控制梯度方差 [29][30] “大先验+小LoRA”策略的经济性优势 - 实验对比了不同规模模型采用全参数RL与LoRA RL的效果,为公平比较,控制了总RL FLOPs、环境交互次数及奖励模型等变量 [36][40] - 使用“headroom-normalized”指标评估,结论显示:32B参数模型配合rank=8的LoRA,在相同RL计算预算下,获得的性能提升比例最大 [37] - 在域外任务GPQA上,32B+LoRA的迁移效果也最好,表明“大先验+小LoRA”策略比“小模型全参数RL”更划算,因为大模型已编码丰富先验知识,RL可在此基础上精修 [38][39] 配套技术创新:Memory Diffusion记忆机制 - Mind Lab提出名为“Memory Diffusion”的新记忆机制,灵感源于人类“智慧地遗忘”,通过“遮蔽-分配-重填”三步动态压缩轨迹记忆 [45][46][47] - 该方法时间复杂度为O(1),不改变模型架构,严格遵守上下文预算 [48] - 在Locomo基准测试上,该机制达到了93%的准确率,刷新了SOTA记录 [49] 研产共设理念与产品化成果 - Mind Lab提出“研产共设”理念,认为真实产品是天然的RL环境,能提供持续、接地气的奖励信号,如用户使用模式、任务完成率等,有助于避免奖励模型被“破解” [50][51][54] - 在前端代码生成任务实验中,使用真实人类反馈训练的奖励模型显著优于仅预训练的模型,基于此的RL也显著优于监督微调 [56] - 技术已落地于Macaron AI产品,使其Mini-app生成速度从20分钟提升至2分钟,速度提升10倍,并上线了新功能 [57] 行业展望与Mind Lab定位 - 行业观点认为,以“算力规模化”为核心的预训练时代正在走向终结,下一个时代将是“经验智能”时代,智能需在真实世界中成长 [58][59][61] - Mind Lab定位为全球首个专门为“后预训练时代”而生的研究实验室,其核心命题是“智能如何在真实世界中成长”,主张下一个时代属于能通过交互不断更新的“心智” [60][61] - 团队核心研究方向包括:1) 基础设施;2) 超越预训练;3) 开放与可复现 [65]
OpenAI首席研究员Mark Chen长访谈:小扎亲手端汤来公司挖人,气得我们端着汤去了Meta
36氪· 2025-12-04 02:58
公司战略与文化 - 公司本质上仍然是一家纯AI研究公司,核心目标是构建AGI,产品是研究自然流出的结果 [5][21][124] - 公司拥有约500名核心研究人员,内部同时进行约300个项目,通过每1-2个月梳理项目并分配算力来明确优先级 [5][14][15] - 公司采用自上而下押注方向与自下而上文化并存的研究模式,鼓励来自意想不到地方的好点子,并积极放大有前景的研究线索 [79][97] - 公司坚持开放文化,研究人员之间自由分享想法,认为通过速度压制对手比建立信息隔离更有效 [84] - 公司非常重视人才密度,并有意控制研究团队规模,认为甚至可能少于500人,同时通过管理实验确保高门槛 [129][130][131] - 公司在项目署名上持开放态度,被认为是行业内单位人数上对外部署名与个人功劳最大方的地方之一,旨在认可并打造AI超级明星 [133][134][136] 研究重点与进展 - 过去半年,公司研究重心重新聚焦于预训练,认为预训练领域仍有巨大潜力可挖掘,并对此非常有信心 [5][31][88][89] - 公司在“思考”(Reasoning)方向的研究已取得突破,并投入了巨量资源,该能力现已被广泛认为是不可或缺的 [20][86] - 公司内部已有性能达到Gemini 3的模型,并确定很快会发布,且能发布表现更好的下一代模型 [5][27] - 公司认为扩展定律(Scaling Law)并未失效,将继续扩大模型规模,并已有算法突破支持继续扩展 [89][114][116] - 公司设定了明确的研究目标:一年内让AI成为能提高效率的研究实习生;2.5年内实现AI端到端执行研究流程 [112][113] - 公司观察到AI在数学与科学领域产出实打实的新发现,标志着科研前沿推进发生了剧烈的阶段转变 [100][106] 竞争态势与人才争夺 - AI行业人才竞争激烈,Meta等公司采用激进的招聘策略(如高管亲自送汤),但公司在保护核心人才方面做得相当不错 [5][9] - 公司不会与竞争对手进行报价对标,即使面对远高于自身的报价倍数,许多人才仍因相信公司的研究路线和未来而选择留下 [11] - 公司也从竞争对手处学习激进的招聘方法,并积极争取明星人才,目标是为使命组建最强团队 [80] - 面对竞争对手发布新模型(如Gemini 3),公司会建立内部共识并进行试探,但强调不被竞争动态困住,坚持长期可持续的研究方式 [19][27] - 公司对DeepSeek等开源模型的崛起持冷静态度,认为应坚持自己的研究节奏持续创新,而非被外界叙事干扰 [128] 技术细节与算力需求 - 公司在“探索下一代范式”上投入的算力,比训练最终产物本身还要多 [16] - 公司的算力需求极为旺盛,如果今天多10倍算力,可能几周内就能全部用满,看不到需求放缓的迹象 [5][115] - 构建大型模型深度依赖工程能力,如优化内核速度、确保数值计算稳定等,没有这些则无法扩展到当前使用的GPU数量 [24][25] - 公司在数据效率相关算法上非常强,认为这是相对于竞争对手的一个优势 [116] - 公司在模型对齐与安全研究上投入巨大,特别关注随着模型能力增强可能出现的“谋划”(scheming)倾向,并设计了如不监督思考过程等重要工具来保持观察窗口 [137][140] 产品与未来展望 - 公司正在与Jony Ive合作开发硬件设备,旨在重新思考与AI的交互方式,使其具备更强记忆和持续学习能力 [117][118][119] - 未来的ChatGPT应具备更强的记忆和持续学习能力,能根据历史交互变得更聪明,而非每次重新思考 [118] - 公司推动“OpenAI for Science”计划,目标是打造工具与框架赋能全球科学家,加速诺贝尔奖级别的科学发现,而非仅让公司自身获奖 [101][102] - 公司认为AGI是一个过程而非某个具体完成点,更看重是否在持续产出新的科学知识和推进科学前沿 [99][100] - 公司认为当前正处于下一次工业革命的黄金时刻,变化将非常剧烈 [109][126]
免训练!使用贝叶斯去微调VLM,机器人操作任务取得SOTA!
具身智能之心· 2025-12-03 03:47
核心技术框架 - 提出T²-VLM框架 一种无需训练且具有时序一致性的方法 通过跟踪视觉语言模型推导出的子目标状态变化来生成精确奖励 [2] - 框架首先在每轮交互前查询视觉语言模型以建立空间感知的子目标及初始完成度估计 随后采用贝叶斯跟踪算法利用子目标隐藏状态动态更新目标完成状态 [2] - 该方法为强化学习智能体生成结构化奖励 增强长程决策能力并借助强化学习提升故障恢复性能 [2] 技术优势与性能 - T²-VLM在两个机器人操作基准测试中取得最先进性能 在降低计算消耗的同时展现优异奖励准确性 [2] - 方法在不牺牲视觉语言模型通用泛化能力前提下显著提升其空间理解能力 为真机强化学习训练提供更精确反馈 [5] - 解决预训练数据集缺乏领域特定机器人知识及高昂计算成本阻碍实时应用的问题 [2] 应用场景 - 针对长序列机械臂操作任务中视觉语言模型难以稳定提供准确奖励信号的挑战提出解决方案 [5] - 框架专为机器人操作任务设计 通过时序一致性增强在具身任务如目标分解与视觉理解中的性能 [2]
被轻视的Rollout过程,是后训练的性能瓶颈,还是RL的ROI突破口?
机器之心· 2025-11-30 01:30
强化学习后训练中的Rollout环节 - 2025年,强化学习已成为大语言模型后训练的核心技术路径,研究重心从预训练规模竞赛转向后训练能力深化[5][6] - 在RL后训练的“生成-评估-更新”流程中,Rollout环节是影响训练效率和效果的关键因素,也是计算消耗最大的环节[6] - 多项研究发现Rollout环节占据了RL后训练时间的绝大部分:港科大和阿里团队的分析发现其占70%,字节和上海交大的研究证明其占84%-91%[6] - Rollout在LLM语境下特指模型基于当前策略,从某个提示开始生成完整或部分回答序列的过程[7] - Rollout与推理共享自回归生成的核心技术逻辑,但目标不同:推理追求单次生成的准确性与效率,而Rollout旨在为训练提供多样化、有价值的轨迹样本[7] Rollout对训练效果的影响与质量重要性 - Rollout的轨迹质量直接决定RL训练的最终效果,劣质轨迹会导致模型陷入局部最优,优质轨迹则能激活模型的探索能力与推理潜力[8] - 阿里巴巴团队研究发现,在数学推理RL训练中,采用随机采样Rollout的模型,其轨迹与任务目标对齐度仅41%,即使训练步数达到优质轨迹组的2倍,在MATH数据集上的准确率仍低18%[8] - 蚂蚁团队在万亿参数模型的训练中发现,未经过滤的Rollout轨迹会导致梯度计算偏差指数级累积[8] Rollout的计算效率挑战与优化探索 - Rollout环节的计算效率困境,本质是“生成逻辑的串行特性”与“任务分布的长尾特性”之间的根本性矛盾[9] - “长尾延迟”指少量长请求占据多数耗时的分布失衡现象,这导致所有GPU需要等待最慢的请求,大量设备在等待期内处于空闲,产生计算资源“泡沫”[9] - 英伟达的研究者在2025年11月提出了BroRL范式,通过扩展Rollout规模的方式让该环节更具计算与数据效率,能在更短时间内完成更高质量的训练,且扩展上限更高[9] 行业动态与未来展望 - 2026年被提及为大模型可能实现未知“能力拐点”的关键年份,并探讨其能否实现可持续的业务增长[2] - 行业关注AI能否在2026年实现独立工作8小时,以及OpenAI内部开始强调“进入战时状态、不再是默认赢家”的竞争态势[2] - 企业优先的Anthropic被讨论是否会在OpenAI之前实现盈利[2] - Google和Meta投入的巨额资本支出能带来多少“非泡沫”的AI增长成为行业焦点[2] - OpenAI的Sam Altman认为“极速”比“廉价Token”更值钱,专家级用户愿为“毫秒级延迟”而非“低成本Token”买单[2] - “任务连贯性”正在取代“准确率”成为新的评价指标[2] - 在万物互联时代,OpenAI致力于打造一台“断网”也能使用的新计算机[2] - 有观点认为人类精心设计的智能体工作流,反而是阻碍模型智力涌现的最大绊脚石,“Let it figure it out”被视为顶级AI智能体的最终解决方案[2]
读了 40 篇 VLA+RL之后......
具身智能之心· 2025-11-28 00:04
文章核心观点 - 强化学习在视觉语言动作模型领域的应用趋势正从监督微调转向结合强化学习,其核心价值在于提升模型在真实环境中的适应性和任务完成效率[1] - 强化学习在单一任务上已表现出色,当前最大挑战在于实现多任务间的正向迁移,以提升预训练模型的基础性能,这关系到该技术路径的上限[3] - 行业研究重点集中在解决奖励稀疏性、大规模策略网络特性以及多任务学习等关键问题上,这些方向代表了潜在的技术突破点和投资机会[5] 强化学习在VLA中的应用分类与现状 - 强化学习优化方法呈现多样化,包括在线强化学习、离线强化学习、迭代式强化学习及推理时改进等,不同方法在效果上可相互转化[1] - 行业已出现代表性算法案例:What can RL brings to VLA generalization采用在线强化学习,CoRFT采用离线强化学习,pi-star-0.6采用迭代式强化学习,V-GPS采用推理时改进[1] - 强化学习在完成单一复杂任务方面效果显著,例如pi-star-0.6模型仅需约1千条轨迹即可完成叠衣服长程任务[3] 技术部署与基础设施 - 技术部署的核心考量是真实环境的可用性,重点解决安全性与数据采集效率问题,例如SafeVLA项目专注于安全性设计[2] - 模拟环境可能发挥重大价值,存在大规模强化学习预训练的可能性,世界模型与强化学习结合的预训练模式是未来方向[2] - 强化学习基础设施成为关键支撑,RLinf、RLinf-VLA、SimpleVLA-RL等项目在基础设施方面表现突出[2] 多任务学习与技术挑战 - 多任务学习是当前最大技术挑战,目标在于实现任务间正向迁移而非相互干扰,MoRE项目采用混合专家模型应对多任务相互影响问题[3] - 强化学习能否像大语言模型中的RLVR技术那样提升预训练模型基础性能,目前仍不确定,是领域内终极问题[3] - 行业关注多任务学习能否相互促进以及在预训练规模上强化学习能否提供帮助,这些问题的答案将决定技术发展路径[3] 奖励函数设计与技术演进 - 奖励函数或价值函数的必要性存在争议,一方面能降低优化方差,另一方面随着VLA模型性能提升,对密集奖励的需求可能降低[4] - 技术演进参考大语言模型中的GRPO方法已取消批判网络,预示奖励函数设计可能趋向简化[4] - 实际应用中出现两种路径:小奖励函数如SERL中的专用神经网络,大价值函数如VLAC中的视觉语言模型级神经网络[5] 研究方向与课题机会 - 当前主要研究方向包括:奖励稀疏性问题解决方案、大规模策略网络特性研究、多任务学习核心问题[5] - 具体课题机会体现在:DSRL针对扩散模型特性设计强化学习方案,SERL-HIL利用人类干预解决奖励稀疏问题,iRe-VLA专注于稳定性解决方案[5] - 行业已积累大量技术文献,涵盖RIPT-VLA、VLA-RL、pi_RL等30余个关键技术项目,为后续研究提供丰富基础[6]