强化学习
搜索文档
亚马逊“盲眼”机器人30秒跑酷首秀惊艳!华人学者领衔
量子位· 2025-10-06 05:42
核心技术:OmniRetarget方法 - 亚马逊机器人团队FAR发布首个足式人形机器人研究成果OmniRetarget,该技术使机器人在完全无摄像头、雷达等感知单元的情况下完成搬动9斤重椅子、攀爬1米高桌台等高难度动作[1][9] - OmniRetarget是一个开源数据生成引擎,通过交互网格建模机器人、物体和地形间的空间接触关系,将人类演示转化为高质量运动学参考,实现从仿真到人形机器人的零样本迁移[11][12][14] - 与PHC、GMR等基线方法相比,OmniRetarget在硬约束、物体交互、地形交互等关键指标上全面领先,尤其在防止脚部打滑(最大速度0 cm/s)和减少物体穿透(最大深度1.34cm)方面表现突出[15][40] 技术创新细节 - 交互网格通过德劳内四面体化构建,以拉普拉斯形变能最小化为优化目标,保留原始交互的空间结构和接触关系,适配不同机器人形态时仅需调整关键点对应关系[18][20][21][24] - 通过参数化改变物体配置、形状或地形特征,将单个人类演示转化为多样化数据集,完整增强数据集训练的成功率达79.1%,与标称动作的82.2%相近[27][38] - 强化学习策略仅依赖本体感知和参考轨迹,结合五类奖励(身体跟踪、动作速率等)和领域随机化,实现高保真动作跟踪且无需繁琐参数调整[29][30][33] 性能表现与行业影响 - 在30秒连续任务中,搭载OmniRetarget的宇树G1机器人完成多阶段跑酷动作,下游强化学习策略成功率在机器人-物体交互任务中达82.2%,在机器人-地形交互任务中达94.73%[37][38][40] - 该技术由成立仅七个多月的亚马逊FAR团队开发,团队核心成员来自知名机器人公司Covariant,由华人学者Rocky Duan领导,标志着亚马逊在足式人形机器人领域的首次突破[42][46][47][48]
强化学习在机械臂、四足、人形的应用有哪些?
具身智能之心· 2025-10-05 16:03
强化学习在具身智能机器人领域的应用 - 强化学习是具身智能机器人(包括人形和四足机器人)实现步态控制等复杂任务的核心技术,宇树、智元等公司的人形机器人通过强化学习完成爬楼梯、爬山、跑步、跳舞、翻跟头等高难度动作[3] - 强化学习方案使机器人产品能够适应救援、测量、危险环境等场景[3] - 机械臂的视觉语言动作模型结合强化学习方案在学术领域越来越受欢迎,该方案使机器人执行任务更高效、丝滑与顺畅[4][9] 强化学习论文辅导课程核心内容 - 课程周期为14周在线集中辅导加8周维护答疑,目标帮助学员产出可向RAL、ICRA、IROS、CoRL等顶级会议或期刊投稿的论文初稿[10][18] - 课程采用6人小班制,每周1次直播授课并配有视频录播和专属助教答疑[8][18] - 课程提供四足、人形、机械臂、VLA+RL四个大方向的研究主题,学员可三选一主线,并根据各自方向确定研究主题[18][19] 课程技术框架与产出 - 课程基于最新的Isaac Lab仿真环境,提供可复现的基线代码和真机部署参考代码,涵盖Sim2Real和Real2Sim2Real完整流程[18][19][23] - 学员将学习SAC、PPO、BC、Diffusion Policy等强化学习算法,并在复杂地形鲁棒行走、外推冲击恢复、速度曲线跟踪等任务上进行实战[19][23] - 课程产出包括论文IDEA确认、项目实现、实验指导、写作润色和初稿形成,结营后8周内提供论文维护支持(补实验、改图、润色与回复)[8][18][25] 研究课题示例与师资力量 - 研究课题示例包括基于终身学习的四足机器人跨任务运动技能迁移、神经科学启发下的人形机器人全身运动控制等前沿方向[30] - 授课导师Jack来自美国顶尖高校,是具身智能与机器人领域的博士后研究员,曾在RSS、ICRA、IROS、RAL等顶级会议期刊发表论文并担任审稿人[27] - 课程强调科研闭环,提供从方法、工程、评测到写作、投稿、维护的全流程陪跑,每周设定明确的任务指标和里程碑[18][36]
从「知题」到「知人」:UserRL让智能体学会「以人为本」
机器之心· 2025-10-05 06:42
文章核心观点 - 当前大语言模型在代码、数学等任务上表现出色,但距离成为真正的“用户伙伴”仍有差距,核心挑战在于缺乏“知人”的能力,即理解用户动态、不确定和多目标的意图 [2] - 智能体发展的下一个时代课题是从“会解题”迈向“懂用户”,这需要全新的动态评测框架与训练机制 [2] - 来自UIUC与Salesforce的研究团队提出了系统化方案:UserBench(用于评测)和UserRL(用于训练),二者相辅相成,将“以用户为中心”从理念落地为可复现的流程、接口与评测指标 [2][3] UserBench:量化用户价值的评测框架 - **核心思想**:真正的智能体价值不在于完成任务本身,而在于是否能够理解用户、服务用户,UserBench旨在通过刻画用户特征,将“用户价值”从抽象理念转化为可量化的研究对象 [4] - **设计原则**:针对传统评测集中在工具调用与任务完成,却鲜少触及模型是否对齐用户潜在与动态意图的缺口 [5] - **三大用户交互特征**:UserBench将现实交互的三大特征作为评测核心,包括用户目标未完全成形(模糊性)、在多轮对话中逐步显露(渐进性)、以含蓄间接的方式表达(间接性)[3][6][8] - **环境与数据构造**:标志性设计是旅行规划任务,覆盖五个子场景,每个维度设置数十条隐式偏好表述,要求模型理解用户话语背后的语义逻辑 [8] - **数据难度与真实性**:环境内置稳定数据库后端,搜索返回采用混合式选项(正确项、错误项、噪声项)增加模型认知难度,数据根据偏好复杂程度分为Easy/Medium/Hard三档,既保真实性又具备实验可控性 [9][10] - **标准化交互接口**:将复杂的模型、用户及环境三方交互抽象为三类原语操作:Action(与用户对话)、Search(检索数据库)、Answer(提交推荐),高度浓缩了“理解—检索—决策”的链路 [11][15] - **评价指标**:核心指标是归一化得分(选到最优解记1.0,正确但次优解记0.8,其余记0),并辅以过程指标如有效搜索/对话操作率、偏好揭示率进行综合分析 [13][16] UserBench关键评测发现 - **模型普遍表现**:在评测的主流模型中,GPT-4o的归一化得分为0.329,Gemini-2.5-Pro为0.317,Claude-4-Sonnet为0.307,Deepseek-V3为0.210 [12] - **核心挑战定位**:模型并非输在“不会算”,而是常常没能问对问题、没能挖出关键信息,真正的挑战是智能体与人的交互中进行有效的“用户价值”提炼与捕捉 [13] - **单选比多选困难**:当模型可回答次数限制为一次时,平均分数下滑约40%,暴露了“只能给一次答案”时的抉择困难 [16] - **用户偏好揭示率低**:主流模型仅约20%的答案完全贴合全部用户意图,即便是强模型,通过主动互动挖掘到的偏好不到30% [16] - **工具使用与用户理解脱节**:模型普遍有效搜索率超过80%(如Gemini-2.5-Flash达83.62%),但有效对话率显著更低(如GPT-4o为27.82%),说明“循证澄清”的难度更高 [12][16] - **约束复杂度影响**:当总偏好数固定时,把偏好更平均地分散到多个旅行需求中更容易,而集中在少数需求上会显著拉低分数,揭示了本质挑战来自局部约束的组合复杂度 [16] - **交互轮数与质量非正相关**:盲目拉长交互轮数并不能带来收益,同时,命中答案的“时效性”与整体模型对话质量也并不总是正相关 [16] UserRL:以用户为中心的强化学习训练框架 - **核心思想**:在UserBench抽象出的三个原语接口之上,构建一个统一的gym环境,把用户在多轮交互中的参与转化为一个可训练的强化学习问题,优化智能体在交互中的回报 [18] - **八大Gym Environments**:覆盖从个性化推荐到复杂推理的多维能力,包括TravelGym、TauGym、PersuadeGym、TurtleGym、TelepathyGym、FunctionGym、IntentionGym、SearchGym,所有环境统一在Action/Search/Answer接口下 [19][20][25] - **用户模拟与多轮Rollout**:每个环境中的用户由LLM模拟,并可更换不同用户模拟模型以实现交互多样性,框架特点包括确定性任务状态、可验证奖励函数、自然语言互动以及多轮rollout [22][26] - **双层奖励设计**:探索回合层(Turn-level)与轨迹层(Trajectory-level)奖励设计,回合层方法包括Naive、Equalized、Reward-to-Go(R2G)及Exponential Mapping(EM),轨迹层整合方式包括Sum和R2G [22][23][24][26][27] - **训练与优化方法**:主要采用GRPO算法进行优化,在同一query下采样多条轨迹,组内归一化优势,再结合回合与轨迹奖励进行联合优化,在RL训练前进行了SFT小规模优化 [30] UserRL关键训练发现 - **奖励组合效果**:回合均等(Equalized)加轨迹Reward-to-Go(R2G)在4B/8B模型上最稳健、平均表现最好,而回合均等加轨迹Sum最弱,说明轨迹级计分比回合级细分更具有决定性价值 [29][34] - **训练模型表现**:经过UserRL训练的Qwen3-8B(Equalized/R2G)在8个gym上的平均得分为0.5652,在TravelGym、PersuadeGym、IntentionGym等交互型任务上超过强闭源模型,整体平均也领先闭源对照 [29][34] - **闭源模型对照**:作为对照的闭源模型中,Gemini-2.5-Pro平均得分为0.4702,GPT-4o为0.4449,GPT-4o-mini为0.1729 [29] - **SFT冷启动必要性**:先做SFT再RL能显著避免早期坍塌,部分任务收益超过100% [30][34] - **用户模拟器选择关键**:使用GPT-4o作为模拟用户训练的模型下游更强,但Qwen3-32B作为开源模拟器具备性价比高且可迁移的优势 [34]
仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板
具身智能之心· 2025-10-04 13:35
核心技术框架 - 采用“单条成功演示轨迹”替代传统从零开始的探索,将高维抓取任务转化为演示编辑任务 [4] - 通过单步强化学习优化编辑参数,极大简化了训练流程 [4][8] - 结合视觉模仿学习实现从仿真环境到真实场景的迁移 [4][8] 技术实现细节 - 演示轨迹编辑通过调整末端执行器变换和手部关节增量来适配不同物体,其中末端执行器变换用于调整手腕的6D位姿,手部关节增量用于调整手指关节角度 [9] - 单步马尔可夫决策过程将任务重构,观测仅包含初始手腕位姿、初始物体位姿和物体点云,动作仅为编辑参数 [9] - 奖励设计极为简化,仅使用抓取成功和碰撞惩罚的组合,无碰撞且抓取成功时奖励为1,有轻微桌面接触且成功时奖励为0.5,失败或严重碰撞时奖励为0 [9] - 训练效率高,通过IsaacGym的并行仿真,在单张RTX 4090 GPU上训练24小时即可收敛 [9] 仿真环境性能 - 在权威数据集DexGraspNet上刷新性能记录,在基于状态的设置下,训练集成功率达95.2%,测试集已见类别和未见类别成功率分别为95.5%和94.4% [10] - 在基于视觉的设置下,训练集成功率达92.2%,测试集已见类别和未见类别成功率分别为92.3%和90.1% [10] - 展现出极强的泛化能力,训练与测试的泛化差距仅1%,且在物体初始位置随机的情况下仍保持高成功率 [10] 跨平台与跨数据集泛化 - 无需调整超参数即可适配6种不同形态的机器人抓取设备,在未见数据集上平均成功率达84.6% [11] - 多手指手表现最优,例如FR3+Inspire Hand在VisualDexterity数据集上成功率高达99.1% [11] - 仅使用175个物体进行训练,即可在5个不同分布的未见数据集上实现零样本测试,证明其数据效率极高 [12][18] 真实场景应用 - 在真实世界中测试110个未见物体,整体成功率达86.5%,其中规则形状物体如瓶子、盒子、球类水果和软玩具的成功率分别达到95.0%、93.6%、98.3%和96.0% [14] - 首次实现无严重碰撞抓取小薄物体,如硬币和卡片,对此类传统难点物体的抓取成功率达到60.0%至76.7% [14] - 支持语言引导抓取和杂乱场景抓取,在真实杂乱场景中成功率超过80%,且对光照和背景变化具有鲁棒性 [14] 技术优势与局限 - 核心价值在于用简单设计解决复杂问题,在通用性、高效性和鲁棒性三个维度上突破现有方法的局限 [20] - 当前局限性包括无法处理功能性抓取、对高度杂乱场景适应能力弱、闭环能力不足以及小薄物体抓取成功率仍有提升空间 [17] - 未来发展方向包括拆分演示轨迹为短片段以增强闭环能力、融合视觉反馈以应对动态场景、结合语言模型以提升功能性抓取的理解能力 [19]
北大校友、华人学者金驰新身份——普林斯顿大学终身副教授
机器之心· 2025-10-04 05:30
金驰教授学术晋升与贡献 - 华人学者金驰在普林斯顿大学晋升为终身副教授,任命于2026年1月16日正式生效[1][4] - 金驰于2019年加入普林斯顿大学电气与计算机工程系担任助理教授,在6年任期内AI学术影响力迅速提升[3] - 其晋升是对其在机器学习理论领域所做基础性贡献的高度认可,这些贡献为当前大语言模型的崛起提供了关键数学基石[4] - 金驰与杨笛一、杜少雷等华人学者于2024年获得斯隆奖[6] - 在Google Scholar上,其论文总引用次数已达13,588次[27] 核心理论贡献:非凸优化 - 金驰的研究解决了深度学习革命中的一个根本问题:为何像随机梯度下降这样简单的优化器能有效训练大规模非凸模型[8][9] - 其工作证明,只要存在少量噪声,简单的梯度方法就能有效逃离损失函数景观中的鞍点,并在多项式时间内继续向更优区域探索[12] - 代表性论文《How to Escape Saddle Points Efficiently》(ICML 2017)被引1,111次,《Accelerated Gradient Descent Escapes Saddle Points Faster than Gradient Descent》(COLT 2018)也是该领域奠基性工作[14][17] - 该理论成果解释了简单算法在复杂问题上表现出的“不合理的有效性”,让公司和研究机构敢于投入数十亿美元进行模型训练,确信底层优化过程稳健[17] 核心理论贡献:强化学习 - 金驰的研究为强化学习核心算法的样本效率建立了严谨证明,推动了理论突破[10][19] - 其工作首次证明了无模型算法在复杂设定下具备样本效率,达到了近乎最优的遗憾界限[22] - 代表性论文《Is Q-learning Provably Efficient?》(NIPS 2018)被引1,113次,《Provably Efficient Reinforcement Learning with Linear Function Approximation》(COLT 2020)被引997次[20][22][27] - 该理论保障为开发更稳健、可靠的强化学习算法提供指导,确保其能在高风险、关键应用中安全部署[23] 学术背景与影响 - 金驰拥有北京大学物理学学士学位和加州大学伯克利分校电气工程与计算机科学博士学位[25] - 其博士导师为机器学习领域泰斗Michael I Jordan教授,早期多篇关键论文均与Jordan合作完成[25] - 金驰团队近期领衔开发了最强开源数学定理证明模型“哥德尔-Prover”,其32B参数模型性能大幅超越前代SOTA DeepSeek 671B模型[31]
理想基座模型负责人近期很满意的工作: RuscaRL
理想TOP2· 2025-10-03 09:55
文章核心观点 - 理想基座模型团队提出RuscaRL框架,旨在通过结合教育心理学的脚手架理论和量规学习,解决大语言模型在强化学习中面临的探索瓶颈问题,以提升模型的推理能力和智能上限 [1][2][8][12] - 该技术被视为一个体系性创新,其价值在于算法与基础设施的融合,而非单一算法的突破,有望同时受益于面向数字世界的MindGPT和物理世界的MindVLA [2][9] - 团队认为强化学习是大模型智能提升的关键,而当前的关键问题是如何让模型在更广泛的问题上实现能力泛化,其核心挑战在于奖励函数在非客观且结果难以准确量化的场景中的应用 [1][8] RuscaRL框架的技术原理 - 框架核心是引入“显性脚手架”机制,通过为每个任务提供包含不同评价标准的量规来指导模型生成响应,并采用组内差异化和跨步退化策略,逐步减少外部支持以促进模型独立推理 [12][14] - 框架采用“可验证奖励”机制,利用量规设计多维度评分标准,并借助大语言模型作为评判器来生成稳定可靠的奖励信号,以增强探索的多样性和训练稳定性 [13][15] - 该框架被类比为英伟达Eureka水准的工作,同属创建元框架来解决强化学习中的关键难题,但不同于DPO那种基础理论层面的突破,其贡献更偏向框架创新和应用成效 [6] 技术价值与行业定位 - 该工作被定位为探索前景广阔但不成熟领域的高水平工作,其价值体现在明确了强化学习领域的关键问题,并提供了创新且可应用的解决方案 [8][9] - 技术潜在瓶颈包括对人工设计的高质量量规依赖较高,以及因多次采样和复杂评估导致的较大训练量和计算开销 [16] - 创新被认为源于体系能力建设,智能体强化学习的关键问题已从单点算法突破转向算法与基础设施融合的体系性问题解决 [2][9]
梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石
机器之心· 2025-10-02 01:30
文章核心观点 - 谷歌DeepMind提出的世界模型Dreamer 4,是一种可扩展的智能体,通过在快速且准确的世界模型中进行想象训练来解决控制任务 [5] - Dreamer 4是首个仅从标准离线数据集(无需与环境交互)就在具有挑战性的电子游戏《我的世界》中获得钻石的智能体 [7] - 该模型利用新颖的shortcut forcing目标和高效的Transformer架构,准确学习复杂的物体交互,同时实现实时人机交互和高效的想象训练 [11] 模型设计概览 - Dreamer 4智能体由一个tokenizer和一个动力学模型组成,两者均使用相同的高效Transformer架构 [17] - tokenizer通过掩码自动编码进行训练,将视频帧压缩为连续表示 [17] - 动力学模型通过shortcut forcing目标进行训练,以实现少量前向传递的交互式生成,并防止随时间累积误差 [17] - 训练流程包括在视频和动作上预训练tokenizer和世界模型,然后将策略和奖励模型微调至世界模型中,最后通过想象训练对策略进行后训练 [19] 实验结果 离线钻石挑战 - 在《我的世界》钻石任务中,Dreamer 4在使用的数据量少100倍的情况下,大幅超越了OpenAI的离线智能体VPT [22] - Dreamer 4超越了利用Gemma 3视觉语言模型通用知识的VLA智能体,在制作铁镐的成功率上几乎是VLA智能体的三倍 [22] - 与基于行为克隆的方法相比,Dreamer 4在四个关键物品的成功率以及获取物品所需时间这两个指标上均表现更优 [24] 人类交互评估 - 在涵盖挖坑、建造墙壁、砍伐树木等16项多样化任务的评估中,Dreamer 4成功完成了14项任务,成功率为14/16 [29] - 相比之下,Lucid-v1模型成功率为0/16,Oasis(small)模型成功率为0/16,Oasis(large)模型成功率为5/16 [29] - Dreamer 4模型参数量为2B,支持640×360分辨率,上下文长度为9.6秒,帧率为21 FPS [29] 动作生成效率 - 仅使用10小时的动作训练时,Dreamer 4的PSNR达到53%,SSIM达到75% [32] - 使用100小时的动作训练时,性能进一步提升,PSNR达到85%,SSIM达到100% [32] - 结果表明世界模型从无标签视频中吸收了大部分知识,仅需要少量的动作标签 [32]
SemiAnalysis创始人Dylan最新访谈--AI、半导体和中美
傅里叶的猫· 2025-10-01 14:43
OpenAI与Nvidia合作情况 - OpenAI需要大量计算资源来训练和运行模型 面临规模太小的风险 尽管有8亿用户 但营收只有15-20亿美元的跑率 而竞争对手是万亿级公司[4] - Nvidia向OpenAI投资100亿美元股权 用于建设10GW计算集群 但实际资本支出高达500亿美元 Nvidia从中捕获大部分GPU订单 毛利率达75%[5] - OpenAI签署了300亿美元的五年合同 如果成功纯利润可达上百亿美元 如果失败则需要举债 这反映了公司在资本实力上相对于Meta等巨头的劣势[6] - 此类合作显示计算资源是AI行业发展的先决条件 短期看Nvidia稳赚 长期取决于OpenAI能否将计算优势转化为实际营收[7] 模型缩放定律和回报机制 - 模型缩放不是线性递减回报 而是log-log规模 10倍计算投入可带来下一阶性能的跃升 例如从低水平到更高水平的能力转变[8] - 大模型服务面临成本高 速度慢等挑战 导致像Anthropic Claude 3 Opus虽然更智能但用户更倾向于使用更快的Sonnet版本[8] - 文本预训练数据接近枯竭 但多模态数据如图像和视频仍有扩展空间 模型大小受限于服务能力而非单纯的计算资源[9] - AI在软件开发领域最为有效 Anthropic营收从1亿美元增长到7-8亿美元 主要来自代码工具 这些工具可作为力乘器 让开发者产出增加2-5倍甚至10倍[9] Token经济学和推理需求 - Token经济学核心是计算投入与智能产出的价值关系 Nvidia将其称为"AI工厂" 1GW容量可服务不同规模的模型[10] - OpenAI的推理需求每两个月翻一倍 公司需要优先服务更多用户并爬升采用曲线 而非急于放大模型规模[10] - 成本已大幅下降 GPT-3现在比最初便宜2000倍 GPT-4o和DeepSeek成本更低 GPT-4到4 Turbo模型大小缩小一半但质量相当或更好[10] - 推理需求无限但硬件能力无法每两个月翻倍 因此需要算法降本 容量比延迟更重要 现有延迟已足够使用[11] - AI代理未来可像Visa一样抽成1-2% 例如Etsy已有10%流量来自GPT的购物建议查询 显示推理可成为营收引擎[11] 强化学习与环境训练 - 强化学习通过环境迭代学习 湾区有40家初创公司构建训练环境 如模拟购物 数据清洗 数学谜题等场景[12] - 人类通过试错学习 AI也需要类似过程 包括生成数据 测试和反馈 这被称为"后训练"的第二阶段[12] - 长上下文记忆需要优化 Transformer擅长短上下文 但长记忆需借助RAG等技术 类似人类记忆要点而非细节[12] - AI将从问答工具发展为行动代理 能够执行购物 决策等任务 这需要平衡即时反应与深度思考的能力[13] 硬件与电力供应链 - AI数据中心占美国电力消耗3-4% 其中一半为传统数据中心 一半为AI专用 整体数据中心行业占美国电力2-3%[14] - OpenAI规划的2GW数据中心电力消耗相当于费城全市用电量 建设资本支出约25亿美元 包括GPU等设备[14] - 行业面临供应链和劳动力短缺 移动电工薪水已翻倍 特别是在西德州数据中心建设热点地区[15] - 电网稳定性是挑战 AI工作负载导致功率波动 可能引起电网频率从60Hz偏离至59Hz 影响附近家电寿命[15] - Texas的ERCOT和东北部PJM电网要求大用户提前通知 可切掉一半电力保证居民用电 数据中心需启动现场发电机[16] - Nvidia Blackwell芯片制造遇到问题 导致供应链公司资产负债表膨胀 AI服务器部署延后[16] 美中AI竞争差异 - 如果没有AI 美国可能在十年内失去全球霸权 中国通过长期投资已在钢铁 稀土 太阳能等多个领域领先[18] - 中国在半导体领域投资达4000-5000亿美元 比美国CHIPS法案规模更大 重点构建自给自足的产业链生态[18] - 美国需要AI加速GDP增长来应对债务负担和社会分裂 而中国则通过补贴和生态构建玩长线游戏[18] 主要公司评价 - OpenAI整体被看好但焦点分散 尽管有8亿用户和快速增长营收 但执行相比Anthropic有所不足[20] - Anthropic更受乐观评价 营收从不到1亿跳至7-8亿美元 专注软件开发这一2万亿美元市场[21] - AMD评价为"中规中矩" 在AI领域更多是跟跑者 适合中端市场但高端集群仍由Nvidia主导[22] - xAI团队专注但面临资本风险 需要持续融资来支持全球最大单体数据中心建设[23] - Oracle是低风险玩家 通过垫付资本支出收取稳定租金 如果OpenAI成功支付300亿合同将获得高收益[24] - Meta拥有全栈优势 包括硬件 模型和推荐系统 下个人机界面可能是语音直达现实[25] - Google从两年前被看空转为被看好 垂直整合栈使其token成本最低 在多模态领域具有优势[25] - 初创公司Periodic Labs用强化学习研究电池化学 效率提升25%可解锁面部AI设备等新应用[26]
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
量子位· 2025-10-01 03:03
核心观点 - 蚂蚁通用人工智能中心与香港大学联合推出PromptCoT 2.0框架,在大模型发展的下半场押注“任务合成”方向 [1][5] - 任务合成被视为与强化学习并列的基石技术,旨在解决现实世界长尾复杂问题导致的数据稀缺问题,并为大模型训练提供高质量合成数据 [6][9] - 实验表明,PromptCoT 2.0通过“强起点、强反馈”的自博弈训练,使30B-A3B模型在数学代码推理任务上达到新的SOTA结果,与DeepSeek-R1-0528、OpenAI o3、Gemini 2.5 Pro等模型表现相当 [2] 技术框架与原理 - PromptCoT 2.0是PromptCoT框架的全面升级,引入基于期望最大化(EM)的优化过程,用EM循环取代人工设计,迭代优化推理链以指导提示构造 [15][23] - 框架将问题合成拆解为概念抽取、逻辑生成及问题生成模型训练三个步骤,使生成的问题更难且更具多样性 [13][15] - 在后训练阶段,除了SFT,还采用强化学习方法,模型可从合成问题出发,通过自我探索推理路径进行学习,对奖励信号要求较低,兼容PPO、GRPO、DPO等多种方法 [25] 性能表现与数据优势 - 在不依赖人工问题的情况下,PromptCoT 2.0大幅提升了弱模型的数学与代码推理能力,其训练的模型在AIME 2024、AIME 2025、HMMT Feb 25等数据集上表现优于依赖人工问题构建的数据集(如OpenMathReasoning、OpenCodeReasoning) [17] - 开源的4.77M合成数据展现出“更难”和“更具差异化”的特征:在零微调评测下表现为更低的即刻正确率(18.5%)和更高的平均推理token消耗(37,373.3个),说明题目更能挖掘模型推理上限 [19][20] - 数据分布分析表明,PromptCoT 2.0的数据点与现有开源题集形成独立分簇,补充了“困难+新颖”区域,为模型训练提供了额外的分布层增益 [21][22] 行业趋势与未来方向 - 行业正从Reasoners向Agents急速推进,任务合成被视为提供燃料,与作为引擎的强化学习共同构成未来大模型后训练范式的判断 [6][10] - 未来发展方向包括Agentic环境合成(造环境让模型学会规划操作)、多模态任务合成(纳入图像视频等信息)、自奖励和对局式自进化(结合EM内循环与博弈式外循环) [27][28][29] - 合成数据具备更强的可扩展性,未来有望取代人工数据成为推动大模型推理能力提升的核心动力 [9][18]
复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述
机器之心· 2025-09-30 23:49
文章核心观点 - 一篇由多所顶尖大学研究者完成的综述系统性回顾了强化学习在大语言模型全生命周期中的最新进展、挑战及未来方向 [2][3] - 强化学习技术显著提升了大语言模型的推理能力与对齐性能 尤其在理解人类意图、遵循指令和增强推理方面效果突出 [2] - 该综述提出了首个强化学习在LLMs全生命周期的分类总览图 涵盖了预训练、对齐、RLVR、数据集与基准测试、开源框架五大分支 [5][6] 强化学习在LLM生命周期中的应用 - 强化学习参与大语言模型的预训练、对齐及推理增强训练全过程 并通过测试基准进行验证 [5] - 预训练阶段应用包括Reinforcement Pre-Training、OctoThinker、Visual Pre-Training等方法 [6] - 对齐阶段涵盖RLHF和奖励建模、经典算法、新奖励模型设计等多种技术路线 [6] - 基于可验证奖励的强化学习是综述关注重点 系统梳理了自OpenAI-o1与DeepSeek-R1发布以来的应用研究 [7] RLVR技术架构与进展 - RLVR通过引入可自动验证的奖励机制 优化推理过程并增强模型对复杂任务的适应能力 [7] - 技术架构包含奖励模型、离线策略辅助、奖励过滤、采样与推理策略、智能体强化学习以及奖励更新层级 [8] - 算法进展包括混合学习策略、对抗/多智能体、树结构、视觉语言推理等多种先进方法 [6] - 多模态推理涵盖视频空间推理、具身推理、生成与纯视觉、专业领域任务等应用方向 [6] 数据集与评估基准 - 整理了大量现有用于强化学习微调的数据集与评估基准 为研究提供实践参考 [3][6] - 数学推理基准包括GSM8K、MATH、OlympiadBench等 [6] - 代码能力评估涵盖APPS、LiveCodeBench、SWE-bench等基准 [6] - 通用知识与STEM评估包含MMLU系列、GPQA、TheoremQA等多个权威测试集 [6] 开源工具与训练框架 - 总结了当前主流开源工具与训练框架 为研究人员提供清晰实践参考 [3][6] - 通用端到端框架包括VeRL、ColossalChat、DeepSpeed-Chat、TRL等 [6] - 专门训练库包含Nemo RL、FlashRL、ROLL等多个工具包 [6] - 这些资源整合对LLMs场景下探索RL的研究人员具有重要参考价值 [11] 技术挑战与未来发展 - 大规模RL训练对LLM来说仍是计算密集型且往往不稳定 系统可扩展性和训练稳定性存在挑战 [12] - 奖励设计和信用分配是应用难点 长时间推理过程中的奖励延迟问题给模型学习带来困难 [12] - 缺乏清晰理论框架分析RL在LLM训练中的泛化能力和稳定性 对有效性和风险理解不充分 [12] - 数据集和评估基准建设不足 缺乏统一标准化基准为强化学习微调方法比较验证带来困难 [12]