强化学习(RL)
搜索文档
攻克AI推理难题,清华团队提出「统一LLM强化学习新范式」ReST-RL
36氪· 2025-09-10 09:53
大语言模型推理能力挑战 - 当前大语言模型在复杂代码、多步逻辑和抽象任务中经常出现逻辑跳跃、步骤混乱和答非所问等问题 [1] - 现有方法难以兼顾推理能力、训练效率与通用性 面临奖励信号差异微弱、计算成本高、泛化能力差以及数据标注成本高等难题 [1][3][4] 清华大学ReST-RL新方法 - 提出统一的强化学习新范式ReST-RL 将改进的GRPO算法与价值模型辅助的测试时解码方法相结合 [1] - 方法包含ReST-GRPO和VM-MCTS两个核心组件 分别针对训练和推理阶段进行优化 [5] - ReST-GRPO通过策略自身筛选训练数据 剔除奖励标准差低于阈值σ₀的提示语 聚焦高奖励解答轨迹 [6] - VM-MCTS在解码阶段使用价值模型提供验证信号并引导推理路径探索 通过MCTS平衡探索与利用 [9] 实验性能表现 - 在APPS、BigCodeBench和HumanEval等编程基准上优于其他强化训练基线和解码验证基线 [2] - ReST-GRPO相比原始GRPO和DAPO在相同训练步数下拥有更高训练效率 [10] - VM-MCTS在相同验证预算条件下准确性优于基于公开数据训练的Math-Shepherd风格PRM或ORM [10] 方法局限性 - 尚未在数学推理和常识推理等代码以外任务中验证有效性 [13] - 价值模型在域外任务中的准确性缺乏充分研究 [14] - 部分实验设置对最终结果的影响尚未得到系统性分析 [13]
字节跳动:2025年思考模型Seed-Thinking-v1.5技术报告
搜狐财经· 2025-08-22 09:20
模型性能表现 - 在AIME 2024数学竞赛基准测试中获得86.7分,与OpenAI o3-mini-high持平,显著超越DeepSeek R1的79.8分 [1][5][47] - Codeforces编程测试中pass@8指标达55.0分,接近Gemini 2.5 Pro的56.3分,但落后于OpenAI o3-mini-high的67.5分 [1][5][47] - GPQA科学推理测试获得77.3分,接近o3-mini-high的79.7分 [1][5][47] - 在非推理任务的人类评估中,整体胜率较DeepSeek R1高出8.0% [1][5][51] 模型架构特性 - 采用混合专家模型(MoE)架构,激活参数200亿,总参数2000亿,属于相对紧凑的推理模型 [1][5] - 基于链式思维(CoT)数据进行监督微调,过多非CoT数据会降低模型探索能力 [1][10] - 强化学习训练数据包含STEM问题、代码任务、逻辑推理和非推理数据四类,其中数学数据展现强泛化能力 [1][10][15] 技术创新突破 - 开发VAPO和DAPO框架分别针对演员-评论家及策略梯度范式,解决RL训练不稳定性问题 [1][11][38] - 设计Streaming Rollout System(SRS)缓解长响应生成滞后问题,结合混合精度调度和三层次并行架构提升训练效率 [2][42][43] - 推出Seed-Thinking-Verifier验证器,在人工标注测试集上准确率达99.3%,显著优于Seed-Verifier的82.7% [28][30][31] 基准测试体系 - 构建BeyondAIME高级数学基准,包含100道难度不低于AIME最高水平的原创题目,模型在该基准表现48.0%,落后于o3-mini-high的63.6% [11][25][47] - Codeforces评估采用最近12场竞赛题目,报告pass@1和pass@8指标,更贴合实际用户提交模式 [11][47] - 内部代码沙箱环境实现离线评估与官方平台判决结果强相关性 [20][21] 训练方法论 - 监督微调使用40万训练实例(30万可验证问题+10万非可验证问题),采用32,000令牌长度截断和余弦学习率衰减策略 [34][36] - 强化学习融合可验证数据(验证器评分)、通用数据(奖励模型评分)和混合数据三类来源,通过在线数据分布适配技术减少域间干扰 [37][39] - 采用动态采样、长度自适应GAE和Token级损失等技术创新保障训练稳定性 [40] 资源优化方案 - 混合分布式训练框架整合张量并行(TP)、专家并行(EP)和上下文并行(CP),结合FSDP实现内存优化 [43][46] - 通过层间重计算、激活卸载和优化器卸载技术支持更大微批次训练 [46] - 自动调优系统(AutoTuner)基于性能画像动态选择最优并行配置 [46]
Science Robotics 通过人机交互强化学习进行精确而灵巧的机器人操作
机器人圈· 2025-08-22 09:02
机器人操作技术挑战与现状 - 机器人操作是机器人技术中最困难的挑战之一 方法范围从基于经典模型的控制到现代模仿学习[2] - 现有方法需要大量手动设计 存在性能困难 需要大规模数据收集 限制实际世界大规模部署[2] - 强化学习(RL)使机器人通过交互自主获得复杂操作技能 但受样品效率和安全性问题限制[2] 强化学习方法的潜力与局限 - RL可自主获取复杂灵巧的机器人技能 通过反复试验学习获得高度熟练技能[3] - RL可能超越手工设计控制器和人类远程操作性能[3] - 但面临样本复杂性 奖励函数假设 优化稳定性等挑战[3] - 开发通用基于视觉的方法仍具挑战性 需在不同现实任务中有效学习物理复杂技能[3] HIL-SERL框架突破性进展 - UC伯克利BAIR实验室推出HIL-SERL强化学习框架 革命性解决机器人操作问题[4] - 仅需1-2.5小时训练就能在所有任务上达到100%成功率 远超基线方法不足50%的平均成功率[4] - 即使面临外部干扰也能保持出色表现 展现强大鲁棒性[4] 技术实现细节 - 使用预训练可视化主干网解决优化稳定性问题[5] - 采用基于RLPD的样本效率非策略RL算法处理样本复杂性问题[5] - 结合人工演示和校正 包含精心设计的低级控制器确保政策培训期间安全[5] - 人机交互纠正程序使策略能从错误中吸取教训 对挑战性任务至关重要[5] 任务复杂度与性能表现 - 任务包括组装家具 颠勺煎蛋 鞭打积木 插入U盘等操作[7] - 系统处理动态翻转平底锅对象 拿出叠叠乐块 双臂交接物体 组装复杂设备等任务[11] - 这些任务在动态复杂性 高维状态空间 长视野等方面提出挑战[11] - 训练1-2.5小时实现近乎完美成功率 受初始放置几厘米或程度变化影响[11] - RL策略相比IL方法平均成功率提高101% 周期时间缩短1.8倍[12] 实验验证与系统优势 - 与最先进RL方法比较 进行消融研究了解各组件贡献[19] - 系统不仅优于相关基线 且实证结果归功于组件的精心整合[19] - 支持从图像输入进行双臂协调 处理鞭打叠叠乐块和组装正时皮带等任务[21] - 在实际培训1-2.5小时内 任务成功率提高2倍 执行速度提高1.8倍[21] 行业影响与前景 - RL可在实际训练时间内直接在现实世界学习复杂基于视觉的操纵策略[21] - 这项工作可能激发新一代学习的机器人操作技术 有利于工业应用和研究进步[21]
3个月!搞透VLA/VLA+触觉/VLA+RL/具身世界模型等方向!
具身智能之心· 2025-08-22 00:04
具身智能技术演进 - 技术发展经历了四个阶段:从抓取位姿检测(单步决策缺乏任务上下文建模)到行为克隆(端到端模仿但泛化能力弱),再到2023年Diffusion Policy(扩散模型生成动作轨迹提升稳定性与泛化能力),最终进入2024年Vision-Language-Action模型阶段(多模态协同支持零样本泛化)[6][7] - 2025年技术探索聚焦VLA模型与强化学习、世界模型、触觉感知的融合,以弥补"只能理解不能反馈""只能关注当下不能看见未来""只能看不能触"的局限[8] - 技术演进路径体现从"低层感知->中层策略->高层理解"的能力补齐,逐步迈向通用任务和开放环境智能体时代[9] 产业生态与竞争格局 - 国内企业如华为2024年底启动"全球具身智能产业创新中心"并与乐聚机器人、大族机器人合作建设大脑与小脑关键技术;京东自2025年5月连续投资智元机器人、千寻智能、逐际动力以强化物流与家庭服务场景能力;腾讯、蚂蚁、小米等通过战略投资加快生态构建[5] - 国外企业如Tesla/Figure AI聚焦工业与物流机器人应用;美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内以产业链投资与综合平台驱动落地,国外侧重基础模型、模拟环境与类人机器人原型研发,双方进入关键竞赛阶段[5] 应用场景与商业化进展 - 技术发展推动人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域落地,相关产品和融资活动活跃[9] - 岗位需求呈现爆发式增长,吸引大量人员转入具身智能领域研究[9] 技术体系与学习框架 - 具身智能核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行),需系统学习灵巧操作、移动操作、仿真框架、Diffusion Policy、VLA及融合技术[1][20] - 主流仿真框架包括Mujoco(生态系统架构与接口)、Isaac Gym(数据采集与可视化)、Pybullet(数据集与接口)[21] - 关键技术方法涵盖Diffusion Policy数学原理与3D点云融合、VLA模型(OpenVLA/PI0/SmolVLA架构与性能对比)、VLA+强化学习/触觉/世界模型的融合方案[21]
能横着走的轮足机器人诞生?
机器人大讲堂· 2025-08-19 10:32
轮腿机器人FLORES的核心创新 - 采用轮腿结合设计,实现平路高效移动与复杂地形跨越的无缝切换 [12] - 前腿关节改造为侧摆结构,兼具汽车转向灵活性与四足机器人稳定性 [12][15] - 能耗表现突出:直线运动能耗仅为传统轮腿机器人的30%,转弯能耗仅35% [9] 技术实现细节 - 配备基于强化学习的智能控制器,可自适应生成多模态运动策略 [15][17] - 采用混合内部模型(HIM)架构,针对机械结构优化奖励机制 [18] - 关键硬件包括Intel i7处理器、44.4V锂电池及Motorevo系列关节电机 [11] 性能优势 - 全地形适应能力:在石板路/草坪/坑洼路面均能保持稳定行进 [6] - 运动模式切换速度超越宇树B2W等竞品 [6] - 支持横向移动等特殊机动动作 [3] 应用场景规划 - 重点部署于办公楼/商场等混合地形环境,执行物资运输/巡逻任务 [20] - 未来将加装机械臂拓展物体操控功能 [20] - 通过sim2real技术强化双足运动能力以适应极端环境 [20] 行业参考标的 - 直接竞品包括宇树科技B2W、ANYmal等轮足机器人 [15] - 技术借鉴对象涵盖传统轮式机器人mobED等成熟产品 [15] - 相关企业涉及优必选、云深处等50余家机器人产业链公司 [22][23][25][26]
VLA/VLA+触觉/VLA+RL/具身世界模型等方向教程来啦!
具身智能之心· 2025-08-18 00:07
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 具身智能的核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行) 类比人类神经系统结构 [1] 产业动态 - 近2年星海图 银河通用 逐际动力等明星团队从实验室走向商业化 推动本体与大小脑技术进步 [3] - 国内华为2024年启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人攻关关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力 强化物流与家庭服务场景能力 [5] - 国际方面Tesla/Figure AI聚焦工业物流机器人 Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人 [5] 技术演进路径 - **第一阶段**:抓取位姿检测(Grasp Pose Detection) 通过点云/图像预测末端执行器姿态 但缺乏任务上下文建模 [6] - **第二阶段**:行为克隆(Behavior Cloning) 通过专家数据学习端到端映射 存在泛化能力弱 误差累积问题 [6] - **第三阶段**:2023年Diffusion Policy引入序列建模 2024年VLA模型实现多模态协同 支持零样本泛化 [7] - **第四阶段**:2025年探索VLA与强化学习 世界模型 触觉感知融合 解决反馈 预测与触觉局限 [8] 应用与产品 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗等场景落地 [9] - 行业岗位呈现爆发式增长 吸引大量从业者转入具身智能领域 [9] 技术体系与课程 - 课程系统梳理大脑+小脑技术路线 涵盖灵巧手 移动操作 人形机器人方法 [15] - 包含主流仿真框架配置 DP/VLA/VLA+RL/VLA+触觉等方法详解 以及世界模型下一代范式 [15] - 实践环节覆盖Sim2Real演进 IsaacGym/Mujoco仿真环境 Diffusion Policy代码实战 VLA模型训练等 [21] - 目标群体包括具身算法从业人员 研究方向学生 以及传统CV/自动驾驶转行者 [24][29]
VLA/VLA+触觉/VLA+RL/具身世界模型等!国内首个具身大脑+小脑算法实战教程
具身智能之心· 2025-08-14 06:00
具身智能技术发展 - 具身智能强调智能体与物理环境的交互与适应,聚焦感知、理解、执行和反馈学习能力,其核心模块为大脑(语义理解与任务规划)和小脑(高精度运动执行)[1] - 技术演进分为四个阶段:从抓取位姿检测(静态物体单步决策)→行为克隆(端到端模仿但泛化弱)→Diffusion Policy(扩散模型提升时序稳定性)→VLA模型(多模态协同实现零样本泛化)[6][7] - 2025年技术前沿探索VLA与强化学习、世界模型、触觉感知的融合,以解决"理解不反馈"、"关注当下不预测未来"等局限[8] 产业竞争格局 - 国内企业以产业链投资驱动:华为2024年建"全球具身智能产业创新中心"联合乐聚机器人等;京东2025年连续投资智元机器人等强化物流与家庭服务场景;腾讯/蚂蚁/小米通过战略合作布局生态[5] - 海外企业侧重基础研发:Tesla/Figure AI推进工业物流机器人;Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人;中美进入关键技术竞赛阶段[5] - 明星创业团队涌现:星海图、银河通用、逐际动力等从实验室走向商业化,推动本体与大小脑技术进步[3] 应用与商业化进展 - 技术落地产品涵盖人形机器人、机械臂、四足机器人,应用于工业、家居、餐饮、医疗康复等领域,融资与岗位呈爆发式增长[9] - 工程化需求激增:产业界要求从论文转向部署,需掌握Mujoco/IsaacGym等仿真平台训练、Diffusion Policy/VLA模型部署、强化学习微调等能力[24] 技术培训市场动态 - 课程体系覆盖全技术栈:包括具身仿真框架配置、Diffusion Policy/VLA/VLA+RL算法详解、触觉融合与世界模型等前沿内容[15][20] - 实践导向设计:每个模块配备实战代码(如DP3、SmolVLA)、大作业监督,目标使学员达到1-2年从业经验水平[20][30] - 受众定位明确:面向算法从业人员、转行者及在校生,要求具备Python/Pytorch基础及3090ti以上算力[13][30]
OpenAI联合创始人Greg Brockman:对话黄仁勋、预言GPT-6、我们正处在一个算法瓶颈回归的时代
AI科技大本营· 2025-08-13 09:53
行业演进与公司发展 - 计算机行业正经历从个人魔法到工业革命的演进,OpenAI驾驭十万GPU集群标志着AI基础设施的成熟[3] - Stripe早期通过第一性原理突破传统限制,24小时完成银行需9个月的技术对接,体现硅谷创新精神[15][16] - OpenAI构建了研究-工程双引擎文化,工程能力与研究洞见同等重要,共同推动AGI发展[27][28][29] 技术突破与创新 - 深度学习从AlexNet开始颠覆传统规则,神经网络在多个领域超越人类设计的系统[24][25] - 强化学习(RL)和混合专家模型(MoE)成为解决算法瓶颈的关键方向,推动AGI研究进入新阶段[49][48] - Codex已贡献OpenAI内部10%代码合并请求,外部GitHub日处理24000个PR,重塑软件开发流程[42] 基础设施与硬件需求 - AI基础设施需兼顾高计算量任务与低延迟响应,催生专用加速器需求[45][47] - 模型规模扩大带来系统复杂性挑战,检查点机制和可靠性设计成为训练长周期智能体的关键[43][44] - 黄仁勋提出未来数据中心需支持多样化工作负载,包括多模态AI和实时交互系统[45][46] 产品化与生态发展 - AI产品化面临模型与产品的鸿沟,需结合领域专业知识构建垂直智能体生态[52][53] - GPT-4o图像功能5天获1亿用户,反映AI应用病毒式传播特性与规模化挑战[35][36] - 经济将因AI驱动产生10倍增长,医疗、教育等领域需定制化解决方案[54][55] 研发趋势与瓶颈 - 基础研究回归成为核心,算法瓶颈重新成为制约AGI进展的关键因素[49][50] - 当前研发受计算资源、数据、算法、电力等多维度限制,需动态平衡[49] - GPT-4暴露可靠性问题,显示AI需突破"隔玻璃观察"的学习模式[50][51]
为何强化学习火遍硅谷?AGI的关键一步
虎嗅· 2025-08-07 07:46
强化学习技术趋势 - 强化学习在AI Agent技术架构和模型预训练中成为硅谷主流趋势,顶级人才需求旺盛[1] - 强化学习框架适用于目标驱动型任务,与监督学习形成互补[6][8] - RL pretraining(强化学习预训练)成为研究热点,但验证机制泛化仍是技术瓶颈[9][11][26] 技术架构对比 - 基于LLM的token决策架构与基于action的强化学习架构各有适用场景[5] - 监督学习适合已有标注数据的任务,强化学习适合无数据/目标驱动型任务[8][30] - 强化学习微调成本是监督学习的10倍,但复杂任务中不可替代[29] AGI发展路径 - OpenAI将AGI划分为五个层级:聊天机器人→推理型AI→Agent→创新型AI→组织型AI[13][15][16] - 第三到第四层级(Agent→创新型AI)存在最大技术鸿沟,核心是验证能力突破[16][21][24] - 创新型AI需具备反事实知识发现能力,可能产生超越人类认知的解决方案[13][27] 行业应用与商业化 - 专业领域工作流(金融、供应链、科研等)是强化学习的优势场景[10][44][45] - AI Agent商业化面临成本控制挑战,技术路径决定企业存活能力[63] - 多模态数据标注成为中期发展瓶颈,Meta收购ScaleAI旨在解决该问题[31][36][37] 人才与技术生态 - 强化学习核心人才集中在OpenAI、DeepMind、Meta等机构及少数高校[58][59] - 产业界强化学习应用从专用优化器向通用解决方案演进[60] - Richard S Sutton等先驱者奠定了强化学习理论基础,关注模型可塑性和奖励设计[55][56] 企业战略差异 - Pokee AI采用端到端模型架构,压缩工具链提升专业场景泛化能力[41][44][45] - 行业出现技术路线分化,各公司根据创始人背景形成差异化发展路径[62] - 产品体验与模型能力需平衡,专业型工作流是创业公司突破方向[46][47]
国内首个具身大脑+小脑算法实战全栈教程
具身智能之心· 2025-08-07 02:38
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 大脑模块负责语义理解和任务规划 小脑模块负责高精度运动执行 构成具身机器人核心架构 [1] 产业动态 - 2024年华为启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人等企业共建大脑 小脑关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力等公司 强化物流科技与家庭服务场景能力 [5] - 腾讯 蚂蚁集团 小米通过战略投资加速构建具身智能产业生态 [5] - 国外Tesla/Figure AI聚焦工业与物流机器人 Wayve Apptronik获资本支持推进自动驾驶与仓储机器人应用 [5] 技术演进路径 - **第一阶段**:抓取位姿检测技术依赖单步决策 缺乏任务上下文建模能力 [6] - **第二阶段**:行为克隆技术通过专家数据实现端到端映射 但存在泛化能力弱 误差累积缺陷 [6] - **第三阶段**:2023年Diffusion Policy采用扩散模型生成动作轨迹 提升策略稳定性与泛化能力 [6] - **第四阶段**:2024年VLA模型融合视觉 语言与动作模块 支持零样本快速泛化 实现"感知+推理+行动"范式跃迁 [7] - 2025年技术探索聚焦VLA与强化学习 世界模型 触觉感知的融合 突破环境预测与多模态感知边界 [8] 商业化应用 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗康复领域落地 [9] - 行业岗位呈现爆发式增长 吸引大量跨领域人才转入具身智能研究 [9] 工程化挑战 - 产业界需求推动从论文向部署转型 对Mujoco IsaacGym Pybullet等仿真平台训练能力要求提升 [13] - 需解决Diffusion Policy/VLA模型训练部署 强化学习反馈微调 世界建模一体化架构等工程难题 [13] 人才能力需求 - 从业者需掌握Python/Pytorch基础 具备3090ti及以上算力设备 [17] - 核心技能覆盖仿真环境搭建 模型训练优化 触觉信息融合 世界模型应用等全栈能力 [17]