强化学习

搜索文档
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
机器之心· 2025-09-01 02:49
大模型后训练强化学习技术演进 - GRPO已成为大模型通用的强化学习算法,能够应用于广泛的后训练任务,各大研究团队近期发布的重磅成果如DAPO、GSPO、GFPO均是对GRPO范式的改进 [4][5][38] 后训练与强化学习基础 - 大语言模型开发包含预训练和后训练两个关键阶段,预训练使模型掌握通用语言能力,后训练则强化模型在特定领域的知识和应用能力,增强模型适应性和灵活性 [11][12] - 强化学习是后训练中不可或缺的核心部分,其核心机制是通过反馈增加好结果出现概率并降低坏结果出现概率 [13][14] - OpenAI在GPT训练中采用RLHF方法,通过人类反馈训练agent生成更有用的输出,但直接使用反馈会导致激励不充分和方差过大问题 [17][19] PPO机制及其局限性 - PPO通过引入Critic价值函数将绝对Reward反馈转变为相对评估的Advantage机制,显著降低训练方差 [21][22][23] - PPO采用Clip策略限制新策略相对于旧策略的动作概率变化幅度,避免模型单次更新幅度过大,同时加入Reference Model和KL散度作为双保险保障更新稳定性 [24][25][26] - PPO需同时训练策略模型和Critic模型,Critic模型大小与策略模型相同,带来额外内存和计算负担,训练成本高且难以扩展 [29] GRPO创新与优势 - GRPO通过去掉Critic模型解决PPO高成本问题,采用策略模型多次输出采样的平均Reward作为baseline计算Advantage,大幅降低内存需求和计算复杂度 [30][31][34][35] - 相比PPO需要基础模型3倍内存,GRPO仅需0.5倍内存,训练速度快3-5倍,采用单策略网络架构更简单直观 [37] - 但GRPO存在严重稳定性问题,容易导致训练崩溃,需要足够多的Batch数据来降低策略梯度方差,对中小规模训练不友好 [39] DAPO优化方案 - DAPO针对GRPO实践问题提出四项优化:Clip-Higher机制通过解耦剪辑范围提升训练早期熵值;动态采样过滤无效梯度样本;Token级策略梯度损失保证长序列所有token公平贡献;超长奖励调整避免过长响应 [42][43][44] - 使用DAPO算法让Qwen2.5-32B模型在AIME 2024基准获得50分,优于同等规模DeepSeek模型且训练步数少50% [41] GSPO范式突破 - GSPO将重要性采样从token级提升至序列级,基于整个序列似然度计算重要性比值,显著降低长序列方差积累问题,提高训练稳定性 [48][53][54] - 序列级重要性采样进行长度归一化,避免不同回答长度带来的不稳定,且裁剪时作用于整个序列而非部分token,更符合奖励信号整体性 [56][57][58] - 该方法很可能成为未来后训练强化学习新标准,特别适合专家混合模型场景 [59] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励难以联合优化多个属性问题,可同时优化简洁性、准确度等属性 [62][63] - 通过为每个问题采样更大候选响应组并显式过滤不符合目标属性的响应,无需复杂奖励工程即可实现多属性优化 [64][67] - GFPO在Advantage估计层面进行干预,可与任何GRPO类似方法兼容 [68] GRPO其他缺陷 - GRPO将多奖励信号合并为单一标量信号,模型无法区分奖励具体来源行为 [73][75] - 在多轮推理任务中会出现指数级分支问题,导致训练非常困难 [79]
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源
机器之心· 2025-09-01 02:49
清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的"渲训推一体化"大规模强化学习框架。 人工智能正在经历从 "感知" 到 "行动" 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。 机器之心报道 在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。 OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架, 极大地促进了该领域的发展。 机器之心编辑部 图 1 : OpenAI 在红杉资本闭门会上的分享 然而,当前框架对具身智能的支持仍然受限。相比推理大模型这一类纯大脑模型,具身智能领域存在大脑(侧重推理、长程规划,如RoboBrain)、小脑(侧重执 行、短程操作,如OpenVLA)及大小脑联合(快慢系统,如pi 0.5)等多样模型。 其次, 具身智能除了包含Agentic AI的多步决策 ...
R-Zero 深度解析:无需人类数据,AI 如何实现自我进化?
机器之心· 2025-08-31 03:54
研究背景与核心创新 - 大型语言模型发展长期受限于对大规模高质量人工标注数据的依赖,成本高昂且限制AI超越人类知识边界的潜力 [2] - R-Zero提出全新全自主框架,旨在打破数据依赖瓶颈,使模型从零开始通过自我驱动协同进化生成课程并提升推理能力 [2] - 框架核心是构建能从零数据开始自我进化的AI系统,依赖两个角色:挑战者(Challenger)和解决者(Solver) [3] 框架架构与工作机制 - 从基础LLM出发初始化两个功能独立目标协同的智能体:挑战者作为课程生成器,解决者作为学生 [6][8] - 挑战者优化目标是精准创造位于解决者能力边界的任务,即最具信息增益和学习价值的挑战 [6] - 解决者目标是通过解决挑战者提出的问题持续提升自身推理能力 [8] - 两个智能体在迭代闭环中协同进化,无需人类干预,包括挑战者训练、课程构建、解决者训练和迭代循环四个步骤 [8][9][16] - 形成完全封闭自我驱动的进化循环,AI自己生成问题、伪标签并完成训练,完全不需要外部人类数据输入 [11] 技术实现细节 - 采用自我一致性策略生成伪标签,每个问题生成10个候选答案,出现频率最高的答案被选为伪标签 [17] - 设置过滤器仅保留解决者经验正确率在25%到75%之间的"信息带"内的问题,起到难度校准和质量控制双重作用 [15][17] - 挑战者奖励函数由三部分构成:不确定性奖励最大化50%正确率时的学习效率,重复惩罚保证课程多样性 [20] 实验性能表现 - Qwen3-8B-Base模型经过三轮自我进化,数学推理能力显著提升,多个数学基准测试平均分从49.18提升至54.69(+5.51分) [18] - 展现出向通用领域的强大泛化能力,尽管训练任务集中于数学,但Qwen3-8B-Base在MMLU-Pro等通用推理基准上平均分提升3.81分 [19] - OctoThinker-8B模型经过R-Zero训练后,从Base Model的16.81分提升至R-Zero (Iter 3)的26.88分,性能提升显著 [18] 协同效应与应用价值 - 实验证明先经过R-Zero训练的基础模型再使用人类标注数据进行监督微调,能达到比直接微调更高的性能 [22] - 该框架可作为高效的中间训练阶段,最大化人类标注数据的价值 [22] 技术局限性与挑战 - 存在伪标签准确率衰减问题,从第一轮的79.0%系统性地下降到了第三轮的63.0%,后期学习监督信号包含更多噪声 [26] - 框架高度依赖存在客观可验证正确答案的领域(如数学),对评估标准主观的任务(如创意写作)难以适用 [26]
波士顿动力机器狗终于有新绝活!工程师:我们也没想到它能做到
机器人大讲堂· 2025-08-30 14:59
技术能力升级 - Spot机器人完成连续七个后空翻及侧空翻等高难度动作 展示出前所未有的敏捷性和流畅性 [3] - 通过强化学习实现高性能运动控制 奔跑速度超过5.2米/秒 是默认控制器最高速度的三倍多 [11][13] - 采用仿真环境测试与硬件迭代循环的开发流程 通过反复调试提升行为可靠性 [11] 工业应用场景 - 在福特工厂执行测绘任务 在起亚汽车工厂进行安全检查 为道明尼能源公司实施辐射调查 [14] - 在雪佛龙公司加州热电联产设施开展自动化巡检 开创工业自动化巡检新模式 [16] - 在加拿大嘉能可基德克里克矿和瑞典LKAB基律纳矿执行地下区域检查 并创建采矿隧道数字孪生模型 [17] 商业化与公众展示 - 自2020年正式商用以来 在全球多行业实现部署应用 包括达美乐海滩送披萨等创新场景 [14][18] - 在美国达人秀完成编队舞蹈表演 意外倒地后自主恢复 获得评委一致通过晋级 [20] - 公开表演旨在改变公众对机器人的认知 展示技术趣味性而非恐怖形象 [22] 行业竞争态势 - 中国机器人曾一度在风头上压制波士顿动力 但Spot通过技术升级重新展现竞争力 [1][25] - 机器狗研究领域竞争日益激烈 国内外企业均在快速发展 [22][25]
消失一年,Kimi杨植麟最新对话:“站在无限的开端”
创业邦· 2025-08-30 03:19
文章核心观点 - 杨植麟将AI研发视为攀登无限雪山的过程 问题不可避免但可解决 技术突破持续拓展知识边界[4][5][9][10][12][13] - Kimi K2模型基于MoE架构 具备开源编程和Agentic能力 被《自然》杂志称为"又一个DeepSeek时刻"[4] - 大模型发展从"缸中之脑"演进为与外部世界交互的系统 Agentic能力成为关键突破点[15][16][43] - 技术发展路径呈现非线性格局 L1-L5能力层级存在并行发展可能[19][20][21][22][23] - Token效率取代计算效率成为新焦点 Muon优化器实现30T token等价60T效果[29][30][32][33] 技术发展路径 - 模型能力从Chatbot经Reasoner、Agent向Innovator、Organizer演进 但层级非严格串行[19][20][23] - Agentic能力突破使模型从封闭思考转向多轮工具使用 实现测试时扩展[16][43][44] - 多智能体系统成为L5级关键特征 可实现任务分工与协作[21][22][53] - 模型自我迭代能力(L4)依赖Agentic能力实现 将参与下一代模型开发[20] Kimi K2技术特性 - 采用MoE架构提升参数规模与token效率[33] - 应用Muon优化器替代Adam优化器 学习效率达2倍提升[29][30] - 通过数据改写策略增强高质量数据利用 解决30T token数据墙限制[32][33] - 专注Base Model与Agentic能力结合 强化泛化性训练[34][35] 研发挑战与突破 - 面临Agent泛化性不足挑战 Benchmark过拟合问题突出[34][35][47] - Muon优化器大规模训练出现max logit爆炸问题 通过clipping技术解决[30][40] - Long Context架构与智商保持存在冲突 需平衡技术方案[51][52][71] - 多模态能力训练需避免损伤文本智商 追求"聪明多模态"[63][71] 行业生态格局 - 开源闭源阵营持续博弈 全球市场将收敛至少数几家[55][57][59] - "一方产品"趋势增强 模型与工具端到端整合提升上限[17][18][62] - 通用Agent与垂直Agent并存发展 长尾工具泛化成关键[44][73][74] - API与一方产品构成主要商业模式 头部公司ARR达数十亿美金[75] 技术演进方向 - Token效率提升成为突破数据墙核心路径[29][33] - 强化学习Scaling效率超越预训练 成为发展重点[28][66] - AI native训练方式加速发展 模型将参与自身训练过程[36][47][72] - 交互方式随模型能力持续演进 新范式逐步形成[64][65] 公司战略定位 - 技术决策决定公司五六成走向 关键bet需提前布局[70] - 研发重心从预训练+SFT转向预训练+RL范式[28] - 长期坚持技术开源分享 推动社区协同发展[55][57] - 动态平衡API服务与一方产品商业模式[75]
红杉美国:未来一年,这五个 AI 赛道我们重点关注
Founder Park· 2025-08-29 12:19
核心观点 - AI革命堪比工业革命 正处于认知革命重要发展阶段 蕴含10万亿美元机遇 [2] - 未来12-18个月重点关注五大投资主题:持久化记忆 通信协议 AI语音 AI安全 开源AI [2] - 知识工作者算力消耗将增长10-10000倍 为AI专业化应用创业公司创造巨大机会 [2] 工业革命类比分析 - 工业革命三个关键节点:蒸汽机发明(开启时代) 现代工厂系统诞生(整合生产要素) 工厂流水线形成(专业化成熟) [7] - 工业革命本质是将蒸汽机通用技术进行专业化改造以适应特定行业需求 [5] - 认知革命对应节点:1999年NVIDIA GeForce 256 GPU(时代蒸汽机) 2016年首个AI工厂(整合算法/算力/数据要素) [8] - 专业化是复杂系统成熟必然要求 未来应用程序将由践行专业化的创业公司构建 [10] 市场规模与机遇 - 美国服务业市场价值10万亿美元 目前仅200亿美元被AI自动化 存在10¹³级别巨大机遇 [13] - 云计算转型初期软件行业总支出3500亿美元 其中SaaS仅60亿美元 后推动整体市场扩张至超6500亿美元 [13] - 注册护士领域年工资总额284亿美元(3300名员工×$86,070年薪中位数) [14] - 软件开发领域年工资总额224亿美元(1692名员工×$132,270年薪中位数) [14] - 法律领域年工资总额125亿美元(未明确员工数×$145,760年薪中位数) [14] - 认知革命将拓展市场边界 在服务业催生以AI为核心的独立上市公司 [18] 当前投资趋势 - 趋势一:工作范式转向高杠杆模式 AI Agent使销售人员可管理数百客户 实现百倍千倍杠杆但伴随不确定性 [21] - 趋势二:真实世界验证成为新黄金标准 Expo公司在HackerOne平台证明其为世界排名第一AI黑客 [23] - 趋势三:强化学习技术真正走向产业应用 Reflection公司利用强化学习训练开源编码模型 [25] - 趋势四:AI进入物理世界 Nominal公司利用AI加速硬件制造流程并进行质量保证 [27] - 趋势五:计算成为新生产函数 每位知识工作者算力消耗预计增长10倍 乐观愿景可能增长1000-10000倍 [29] 重点投资方向 - 主题一:持久记忆需解决长期记忆和AI身份持久性 向量数据库/RAG/长上下文窗口仍未彻底解决该问题 [31] - 主题二:无缝通信协议需标准化以实现AI Agent间自动协作 如购物场景中自动询价比价支付 [34] - 主题三:AI语音已成熟 保真度和延迟指标突破 可应用于物流协调/固定收益交易等企业场景 [36][37] - 主题四:AI安全贯穿开发层到消费者全链条 未来可为每个人/Agent配备数百AI安全Agent构建防护体系 [39] - 主题五:开源AI正挑战闭源模型领先地位 对构建自由开放未来至关重要 确保AI未来不限于行业巨头 [41] 发展预期 - 投资主题突破可将工业革命百年历程压缩至短短数年 [43]
不愧是中国机器人,乒乓打得太6了
量子位· 2025-08-29 11:37
技术突破 - 清华姚班本科生苏智团队开发出人形乒乓球机器人HITTER 采用分层规划与学习框架实现亚秒级反应下的稳定连续对打[7][8][9] - 高层模型规划器导航球轨迹并预测击球位置、速度与时机 低层强化学习控制器生成协调的手臂和腿部动作执行人类化打击[10][11][17] - 通过人类动作参考训练 机器人展现出类似人类的腰部旋转等击球行为[18][19] 性能表现 - 在26次投球测试中实现96.2%击球率(24次成功)和92.3%回球率 仅出现1次未回球和1次完全失球[21] - 最高实现106次连续对拉 远超休闲人类玩家水平[5][23] - 具备0.42秒极限反应回击扣球能力 并支持并步接球等高难度动作[1][3][24] 系统配置 - 采用宇树G1机器人直接以手掌作为球拍 在标准尺寸球台训练[13] - 配置9个OptiTrack摄像头(360Hz运行频率)实现毫米级球体追踪精度[14] - 感知-行动闭环系统需在极短时间内完成预测、规划和击球操作[29][31] 技术挑战 - 乒乓球运动需应对5米/秒球速 较网球/羽毛球具有更短距离和更快攻防转换[30] - 成功击球依赖敏捷全身运动 包括快速摆臂、腰部转动、垫步和平衡恢复[32] - 动态环境下的快速物体交互需协调关节控制与精密感知-行动闭环[29][33] 应用前景 - 机器人可完全自主运行于匹配对战环境 无需人类干预[25] - 技术验证为动态环境下快速移动物体交互提供研究范例[29] - 突破性表现预示人形机器人在高速反应场景的应用潜力[23][24]
谢赛宁回忆七年前OpenAI面试:白板编程、五小时会议,面完天都黑了
机器之心· 2025-08-29 09:53
AI大厂面试特点分析 - Meta研究者Lucas Beyer发起关于AI大厂面试体验的投票 选项包括Google/Meta/MS、OpenAI/Anthropic、xAI和Old DeepMind [1] - 投票结果显示Old DeepMind以32.1%的得票率被评为最佳面试体验 [20] 顶尖研究人员职业轨迹 - Lucas Beyer拥有超过94,000次学术引用 h-index达40 2020年以来引用量达93,147次 [2][4] - 2024年6月与Alexander Kolesnikov和Xiaohua Zhai三位研究者共同从OpenAI转入Meta [2] 各公司面试模式比较 - Old DeepMind采用两小时高强度面试 包含100多个数学统计和机器学习问题 [6] - Meta FAIR面试侧重学术讨论和编码 曾由Piotr Dollar、Ross Girshick和何恺明担任面试官 [6] - Google面试采用"教职面试"模式 包含编程题和研究讨论 知名AI学者Noam Shazeer曾参与面试 [7] - OpenAI面试采用5小时白板编程和研究报告形式 由联合创始人John Schulman亲自设计强化学习问题 [7] 面试过程典型案例 - 谢赛宁在OpenAI面试时讨论强化学习中的方差崩溃问题 尽管当时对该领域了解有限但仍需现场研究解决 [7] - Omar Shams回忆DeepMind面试涵盖代码数学统计和机器学习 面试官Jacob Menick给予满分评价 [12] - Rishabh Agarwal被Christian Szegedy面试时 需解决概率分布相关的飞镖游戏问题 并在餐巾纸上完成数学计算 [18] - Felipe Mello在谷歌面试中被要求编写单元测试并分享最难解决的bug [14] - Ashwinee Panda在xAI联合创始人张国栋的面试中获得研究灵感 最终扩展为正式研究成果 [16] 行业人才流动趋势 - 知名研究人员频繁在顶级AI机构间流动 包括OpenAI、DeepMind、谷歌大脑和Meta等 [2][6] - 行业顶尖人才如Ross Girshick(超过60万引用)和何恺明已从企业转向学术或创业领域 [6]
四足机械狗+单臂,低成本开启你的具身学习之旅
具身智能之心· 2025-08-29 04:00
产品定位与核心功能 - Xdog是一款低成本多功能四足机械狗与机械臂集成开发平台 专为具身智能开发者设计 涵盖机器狗二次开发、仿真强化学习及sim2real迁移部署等技术栈 [1] - 平台已实现语音控制、目标识别与跟踪、机械臂自主抓取、强化学习步态控制等核心功能 覆盖具身智能下肢控制大部分技术模块 [2] - 系统基于ROS1开发 支持TCP语音控制、键盘控制、视觉控制及强化自主运动等多种交互方式 [2][15] 硬件配置参数 - 机械狗主体尺寸25cm×20cm×30cm 重7kg 采用Allwinner H616主控芯片(4核1.6GHz) 配备4G内存与32G存储 [3][4][11] - 单腿3自由度 采用连杆传动 支持WIFI/蓝牙通信 配备千兆以太网/USB2.0/Micro-USB等开发接口 [5] - 电池能量93.24Wh 综合续航120分钟 最大前进速度7.2公里/小时 最大旋转速度450度/秒 [5][11] - 机械臂采用20KG总线舵机 配备9-12.6V驱动板及12V/7A电源适配器 抓取范围0.4m(基座周围) 正上方极限抓取高度0.85m [6][7][12] 感知与视觉系统 - 深度相机采用主动双目红外+结构光技术 深度输出分辨率1280×800@30fps 工作距离0.2-10m(最佳精度0.2-4m) [14] - 深度精度达0.5mm(@0.5m)/1.0mm(@1.0m)/5.0mm(@2.0m) RGB摄像头支持1080p@30fps全局快门 [14] - 支持USB 3.0 Type-C接口 兼容Windows/Linux/Android系统 提供Orbbec SDK/OpenNI 2/ROS驱动包 [14] 软件与开发支持 - 开发语言以Python为主 推荐使用2080ti及以上GPU及i7以上CPU进行推理和二次开发 [16][24] - 集成主流大模型实现低延迟高准确性语音交互 支持sim2real与real2sim双向迁移 具备MuJoCo仿真环境映射能力 [17][18] - 提供目标识别算法实现机械臂与机械狗协同跟随 支持ACT模仿学习框架及强化学习步态控制 [19][20][21] 课程体系与技术支持 - 课程包含即插即用系统配置、ROS基础、MuJoCo仿真、IsaacGym环境部署、强化学习算法(PPO/DreamWaQ)、YOLO目标识别等26个模块 [22][23] - 教学团队由5名专家组成 涵盖硬件设计、视觉算法、强化学习等专业领域 包括港大博士生提供技术支持 [22] - 交付周期为付款后3周内 提供1年售后服务期 视频与源码在硬件确认收货后立即提供 [25][26]
基于深度强化学习的轨迹规划
自动驾驶之心· 2025-08-28 23:32
强化学习技术范式演进 - 业界从端到端自动驾驶转向VLA和强化学习等新技术范式 [4] - 强化学习在2018年AlphaZero和2023年ChatGPT RLHF推动下获得更广泛应用潜力 [4] - 2025年初DeepSeek-R1在线推理进一步拓展强化学习使用场景 [4] 学习范式对比 - 监督式学习通过海量数据拟合输入到输出的映射函数 优化目标为平均均方误差值 [5] - 模仿学习以专家动作为监督信号进行行为克隆 在自动驾驶中扩展为短时序轨迹学习 [6] - 强化学习通过环境交互和任务结果反馈优化模型 采用延迟满足的时序决策机制 [7] - 逆强化学习通过用户反馈学习reward-model 解决奖励函数难以定义的问题 [8] 基础理论框架 - 马尔可夫决策过程将时序任务分解为状态概率转移任务 适用于自动驾驶目标生命周期管理 [10] - 动态规划通过分解最优子问题解决离散空间时序任务 [12] - 蒙特卡洛方法利用大数原理统计系统宏观特性 [13] 核心概念体系 - 策略分为确定性和随机性两种 自动驾驶通常采用确定性策略 [14] - 奖励函数提供环境反馈 价值回报定义为衰减因子加权和的时序期望值 [15] - 状态价值函数表示状态期望回报 动作价值函数评估状态动作组合的期望回报 [16][17] - 优势函数衡量动作价值与状态价值的差异 [19] - 贝尔曼方程通过动态规划分解价值函数 [20] 算法分类体系 - 值优化方法直接最大化Q或V函数 包括动态规划/蒙特卡洛/时序差分算法 [25][26] - 策略优化分为on-policy和off-policy两种 后者训练稳定性更好但存在分布偏差 [27][28] - 动态规划采用策略迭代和价值迭代算法求解离散任务 [30] - 蒙特卡洛方法通过统计平均估计价值函数 [32] - 时序差分算法引入常数alpha简化更新过程 衍生出SARSA和Q-learning等算法 [34][39] 深度强化学习算法 - DQN算法通过经验回放和目标网络解决连续状态表达问题 [41] - Dueling DQN将价值网络分解为Q和A的和并增加正则项 [42] - GAE算法结合蒙特卡洛和时序差分进行优势估计 [42] - 策略梯度算法使用梯度下降方式更新策略参数 [46] - Actor-Critic算法同时学习策略和价值函数 [49] - TRPO算法通过置信区间约束保证训练稳定性 [53] - PPO算法简化TRPO约束条件为clip函数 [55] - GRPO算法采用在线group样本统计平均替换value-model [57] 自动驾驶应用实践 - 预训练通过模仿学习任务初始化策略和价值网络 [58] - 策略梯度采用概率建模方法处理action输出 [59] - reward设计涵盖安全性/安心感/效率等指标 高级功能通过逆强化学习实现 [60] - 闭环训练需要多智能体博弈建模环境动态响应 [60] - 端到端强化学习需实时生成更新后的sensor内容 [61]