强化学习

搜索文档
具身智能入门必备的技术栈:从零基础到强化学习与Sim2Real
具身智能之心· 2025-06-30 03:47
具身智能技术发展 - 具身智能正在全面崛起,重新定义人类与机器的关系,从理解语言指令到在复杂环境中灵活移动和精确操作物体[1] - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在竞相布局具身智能领域[1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业[1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境[4] - MuJoCo能够加速学习过程,仿真速度比现实时间快数百倍,并支持极端情况下的试验而不用担心硬件损坏[6] - MuJoCo采用先进的接触动力学算法,支持高度并行化计算,提供丰富的传感器模型,并具有出色的稳定性和数值精度[6] - MuJoCo已成为学术界和工业界的标准工具,被Google、OpenAI、DeepMind等科技巨头广泛使用[7] 具身智能实战教程 - 课程系统性讲解MuJoCo技术细节,涵盖物理仿真原理、深度强化学习、机器人控制理论、Sim-to-Real迁移技术等[8] - 课程采用项目驱动学习方式,学员将构建多个机器人应用,从机械臂控制到人形机器人行走、灵巧手抓取、多智能体协作等[8] - 课程提供丰富的实践机会,使用最新工具和框架如MuJoCo、Stable Baselines3、PyTorch等[9] 课程模块与项目设计 - 课程分为六个学习模块,每周有明确的学习目标和实践项目[10] - 六个实战项目包括智能机械臂控制系统、视觉引导的抓取系统、强化学习驱动的运动技能、模型预测控制、多机器人协作系统、Sim-to-Real迁移验证[11][14][16][18][20][21][23] - 每个项目配有详细的中文指导文档、参考代码、调试技巧和扩展建议,来自中国机器人企业的实际应用场景[24] 学后收获与职业发展 - 学员将掌握MuJoCo各项功能、强化学习核心算法、机器人控制理论与实践、Sim-to-Real迁移技术[27] - 学员将具备完整的项目开发经验,熟悉现代AI开发工具链,培养良好的工程习惯[28] - 职业发展方向包括技术专家(机器人算法工程师、AI研究工程师、仿真技术专家)和产品经理路径,年薪可达30-150万[30] 课程安排 - 开课时间为2025年7月15日,每周更新一章,6周结课,采用离线视频教学和VIP群内答疑[32]
【焦点】香港中文大学(深圳) 赵俊华:大模型智能体在电力系统中的应用初探
搜狐财经· 2025-06-29 13:01
人工智能发展历程 - 决策式AI阶段(1950s~1980s):以逻辑程序和专家系统为主,1956年首次人工智能研讨会召开标志着领域诞生,1965年Logic Theorist程序实现数学证明推理[4] - 技术积淀阶段(1980s~2010年):1986年Backpropagation算法突破,1997年Deep Blue击败国际象棋冠军,2006年深度学习技术发明[4] - 快速发展阶段(2011-2016年):2011年IBM Watson在Jeopardy获胜,2014年GAN出现,2015年AlphaGo战胜围棋冠军[4] - 爆发阶段(2017年至今):2017年Transformer架构提出,2018年GPT/BERT发布,2022年ChatGPT推出,2024年Sora面世[4] 大语言模型技术架构 - 预训练三要素:大数据(无标注文本)、大模型(深度神经网络)、大算力(并行计算集群)[11][12][13] - 训练流程:预训练(月级/千级GPU)→有监督微调(天级/百级GPU)→强化学习(天级/百级GPU)[22] - 微调技术:LoRA方法仅需训练百万参数,效果媲美全参数微调,GPU需求降至3090*4级别[15][20] - 强化学习:通过RLHF量化人类喜好,训练打分模型优化最终输出[18][19] 智能体关键技术 - 工具使用:通过API调用、搜索引擎、代码执行等扩展能力[26][27] - 任务分解:实现复杂任务的子目标拆解与试错机制[28][30] - 长期记忆:存储经验、知识、技能,支持读写持久化[31][32][33] - 自主学习:结合权重微调、提示优化、自我反思等多路径提升[35][36][38] 电力系统应用场景 - 负荷预测:ITA-LF框架整合新闻文本,预测准确率达94.7%,显著优于LSTM(82.08%)和SARIMA(89.93%)[64][68][71] - 调度系统:构建70b参数调度大模型集群,支持检修单成票(94.46%准确率)、规程检索问答(RAG召回率58.7%)[77][91][94] - 市场仿真:多代理模型实现碳市场均衡分析,量化价格弹性系数(煤炭企业7,278吨/元)[113][115][120] - 机理研究:AI4S框架处理10万节点电网建模,年算例超10亿,推动动态建模与稳定性分析[125] 技术融合路径 - 模型融合:推理大模型+PINN+因果模型+符号模型,保留准确性同时提升计算速度[54][56][58] - 人机协同:必要场景引入人工反馈,作为最终决策质量判定者[56][59] - CPSSE仿真:结合真人、因果模型和大语言模型,构建数字孪生系统[62] - 范式演进:从参数学习(机器学习)→提示工程(大模型)→机制工程(智能体)的能力获取转变[40]
CVPR2025 WAD纯视觉端到端 | 冠军方案技术报告~
自动驾驶之心· 2025-06-29 11:33
技术方案 - 采用3B参数VLM模型解决视觉端到端自动驾驶长尾场景问题 [1] - 两阶段训练方法:阶段一预训练采用自监督方式,使用83小时CoVLA数据和11小时Waymo长尾数据集进行next-token prediction训练 [2] - 阶段二微调使用500段人工标注数据,采用GPRO强化学习方法增强模型鲁棒性 [2] 数据集 - 使用Qwen2.5-VL 72B Instruct模型自动标注WOD-E2E和CoVLA数据集,生成240.5K高质量caption [3] - CoVLA数据集包含10000张前视图片,30秒20Hz日本驾驶视频 [11] - WOD-E2E数据集提供4021段长尾驾驶场景,每段20秒10Hz,8个相机 [11] 模型训练 - 预训练采用Qwen-2.5-VL-3B-Instruct模型,CoVLA VLT训练24小时,WOD-E2E VLT训练10小时 [11] - RL后训练进行2000steps,8 rollouts per sample,耗时12小时 [11] - 推理阶段使用1e-6 temperature for CoT,Greedy decoding for trajectory prediction [11] 评估结果 - 在Waymo test set RFS评分达到7.99,排名第一 [2] - Poutine方案7.99分,Poutine-base 7.91分,RL提升效果不明显但解决头部困难问题 [13] - 验证集消融实验显示Poutine-base No CoVLA得分7.95,Poutine-base No Lang得分7.94 [15] 技术特点 - 将轨迹预测建模为四阶段COT推理序列问题 [9] - 预测5个waypoints后使用cubic-spiline插值生成密集轨迹 [9] - 评估采用RFS指标,通过三个专家打分构建信任区域计算 [11] 行业思考 - 基于VLM/LLM的轨迹预测方法在长尾场景表现优异,但对物理世界理解仍有限 [19] - 3B模型目前尚无法支持10Hz城区NOA,主要作为慢系统配合工作 [19] - VLM+Action model的VLA架构可能是更合理的解决方案 [19]
中科院自动化所最新综述!VLA模型后训练与类人运动学习的共性
具身智能之心· 2025-06-29 09:51
核心观点 - 文章从人类运动技能学习角度系统总结了VLA模型的后训练策略,提出环境、具身、任务三维分类框架,并探讨神经科学对机器人学习的启发[4][5][6] - VLA模型需通过后训练从通用预训练转向特定任务适配,类似人类从遗传能力到专项技能的转化过程[8][9] - 类脑视角下,后训练技术可划分为环境感知增强、具身认知优化、任务理解深化及多组件集成四大方向[10][12] VLA模型与后训练重要性 - VLA模型整合视觉、语言与动作生成模块,实现"看-听-动"闭环,但预训练模型在真实场景中需后训练提升精度与鲁棒性[8] - 后训练利用少量目标场景数据微调模型,使其适应机器人物理特性与任务需求,解决"开箱即用"性能不足的问题[9] 三维后训练策略 环境维度 - 引入可供性线索强化模型对环境交互可能性的理解,如物体功能暗示(门把手提示抓握)[12] - 优化视觉编码器与多模态感知融合,提升环境细节记忆与抗遗忘能力[12][13] 具身维度 - 建立机器人正向/逆向运动学模型,模拟人类前馈-反馈控制机制实现精准动作规划[14] - 借鉴小脑多内部模型协同机制,设计分层动作控制模块[14] 任务维度 - 通过人类示范数据注入专家知识,加速任务理解[14] - 采用层次化策略分解长程任务为可管理子步骤,对应人类分而治之的神经处理模式[14][17] 技术挑战与趋势 - 数据效率:需开发课程学习、主动采样等类人策略降低训练数据需求[22] - 多模态扩展:触觉/深度传感等新模态输入可提升环境交互真实性,但面临传感器融合难题[22] - 持续学习:当前离线微调易导致遗忘,需借鉴人类记忆机制开发终身学习框架[22] - 开放泛化:从实验室性能优化转向未知环境适应能力建设[22]
从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?
机器之心· 2025-06-28 05:22
从后训练回到预训练,LLM+RL的潜力分析 - 强化学习(RL)与大型语言模型(LLM)结合的技术路径从后训练阶段延伸至预训练阶段,通过将文本生成重构为序贯决策问题,引入对未来"累积奖励"的评估机制[2] - LLM传统监督学习范式面临高质量标注数据成本高、人类知识存在边界等局限,而RL通过模型与环境交互生成数据,并将监督信号从"生成式"退化为"验证式",降低了对数据质量和标注难度的要求[3] - 微软研究院与清北研究者提出的"Reinforcement Pre-Training(RPT)"技术将RL应用于预训练阶段,在部分推理基准上表现超越传统方法训练的更大模型[4] RL在预训练阶段的技术突破 - RPT方法将下一个词元预测(NTP)任务重塑为可验证的推理任务,利用海量无标注文本数据作为RL训练资源,通过生成思维链(CoT)再预测token的方式规避传统RL方法的局限[5] - 该方法突破了RLHF依赖标注数据、RLVR受限于标准答案等约束,但尚未在更广泛文本和基础模型上验证,且存在计算资源消耗大的问题[5] - 行业早在2022年就开始关注RL预训练课题,南京大学AI学院副院长等专家曾系统分析过RL中少有预训练模型的原因[6] 技术演进趋势与挑战 - LLM+RL路线从后训练向预训练延伸,显示出技术潜力但面临理论缺陷、实现难度和任务适配等多重挑战[4] - 当前RL预训练方法虽能部分解决数据依赖问题,但计算效率、泛化能力等核心瓶颈仍未完全突破[5] - 行业需持续探索如何平衡RL的序贯决策优势与LLM的生成能力,该领域的技术突破可能重塑模型训练范式[2][3][4]
OpenAI 4 名王牌研究员“叛变”,Meta 上亿美元的签约奖金终于花出去了
AI前线· 2025-06-28 05:13
Meta AI人才争夺战略 - Meta近期从OpenAI挖角4名核心研究人员加入其新成立的超级智能实验室 包括强化学习专家特拉皮特·班萨尔和曾参与建立OpenAI苏黎世办公室的卢卡斯·拜尔等三人 这些人才此前在DeepMind实验室也有任职经历 [1] - 公司为挖角OpenAI员工曾开出单笔高达1亿美元的签约奖金 但部分研究人员因OpenAI提供更高薪资和发展空间而拒绝邀约 [2] - 除OpenAI外 Meta还从ScaleAI挖角其CEO亚历山大·王 同时以143亿美元投资获取该公司49%股份 并计划收购语音AI开发商PlayAI以吸纳其技术团队 [2] Meta AI技术布局 - 超级智能实验室目标开发能超越人类表现的多任务AI模型 该部门成立背景与Llama 4 Behemoth大型语言模型性能问题直接相关 原定今年发布的该模型因技术问题已推迟 [1] - 计划聘请AI领域顶级投资人丹尼尔·格罗斯和前GitHub CEO纳特·弗里德曼 二人目前任职的Safe Superintelligence公司与Meta实验室目标高度重合 [3] - 2025年将投入650亿美元建设数据中心基础设施 包括配备超130万块英伟达显卡的超大规模数据中心 [3] 行业人才竞争动态 - OpenAI采取加薪和职业发展承诺等策略应对Meta挖角 显示头部AI企业间人才争夺白热化 [2] - Meta通过"人才+并购"双轨策略快速扩张AI能力 除直接招聘外 还以收购PlayAI等初创公司方式获取整建制团队 [2][3] - AI芯片领域出现新竞争者 某中国AI芯片公司成立5年估值超百亿 正争夺"国产GPU第一股"称号 [5]
肖仰华教授:具身智能距离“涌现”还有多远?
36氪· 2025-06-27 11:30
人工智能技术发展路径 - 人工智能发展呈现两条清晰脉络:生成式人工智能(AIGC)和具身智能 前者聚焦机器认知能力 后者侧重感知与行动能力 [3][6][7] - 生成式大模型本质是让机器具备人类大脑的认知功能 包括语言生成和逻辑思考能力 具身智能则模拟人类身体感知与环境交互能力 [6][7] - 认知智能与具身智能的下一个里程碑是身心协同阶段 需实现身体与大脑的双向塑造 [3][8][9] 技术革命性特质 - 判断技术革命性的三大标准:基础性(如水电煤)、生产力指数级提升、对社会上层建筑的颠覆性影响 [9][10] - 生成式AI符合三大标准:成为新型基础设施 脑力工作效率提升百倍 渗透社会各领域 [10] - 具身智能对生产力的提升作用有限 80亿机器人产能仅相当于人口增长1-2倍 且受安全伦理制约 [11][12][13] 模型发展规律 - Scaling law主导生成式AI初期发展 依赖海量数据(万亿token)和大规模算力 [14] - 后训练范式崛起(如DeepSeek R1) 数据质量与训练策略取代规模成为关键 参数规模让位于算法设计 [15][16] - 行业大模型落地瓶颈在于数据 央国企需投入80%精力治理行业数据 高质量数据集建设成产业护城河 [18][19] 具身智能发展挑战 - 数据缺口显著:最大具身数据集仅百亿token 较语言模型差2个数量级 仿真/合成数据质量不足 [21][22] - 泛化能力受限:环境表达复杂性(如办公室场景需建模高维身体状态)导致数据采集困难 [31][32] - 突破路径包括增加训练量(虚拟试错) 借鉴人类类比/归纳机制 但需敬畏"不可言说"的交互复杂性 [33][34] 产业实现范式 - 三大技术路线并存:连接主义(神经网络)、符号主义(知识图谱)、行为主义(强化学习) 分别对应数据学习、知识学习和实践学习 [36][37][38] - 机器人应走场景化路径而非绝对通用 功能受限于物理构造 机械臂案例显示需任务与身体适配 [42][43] - 集约化需适度 扫地机器人通过附加刷头扩展功能 但强行植入多能力违背产业逻辑 [42][43] 技术风险与治理 - 物理伤害风险远低于认知风险 需警惕AI通过决策误导造成的系统性危害 [45][46] - 安全治理核心是发展AI监管师职业 建立"拔插头"机制 同时加强价值观对齐研究 [48][49] - 身体限制可成为安全保障 思想无边界才是最大风险源 [46][47] 行业影响与教育变革 - AI将冲击产业分工基础 未来工作意义转向体验而非谋生 物质极大丰富改变经济逻辑 [62] - 教育需破除内卷 在保留核心技能(写作/编程)基础上 培养AI难以替代的鉴赏/批判能力 [55][61] - 学科交叉与内心探索是重建价值体系方向 需拓展认知边界应对文明转型 [56][57]
OpenAI连丢4位大将!Ilya合作者/o1核心贡献者加入Meta,苏黎世三人组回应跳槽:集体做出的选择
量子位· 2025-06-27 08:09
核心观点 - Meta近期从OpenAI挖走多名核心AI研究员,包括Trapit Bansal和苏黎世三人组(Lucas Beyer、Alexander Kolesnikov、翟晓华),加强其在推理大模型和多模态领域的布局 [1][10][11] - 公司同时推进语音AI初创公司PlayAI的收购谈判,并已招募语音AI专家Johan Schalkwyk,强化AR眼镜的语音交互能力 [23][24][26] - OpenAI创始人奥特曼公开回应称不担心人才流失,并暗示被挖人员并非其最优秀人才 [12] 人才流动 Trapit Bansal - 2022年加入OpenAI,与Ilya Sutskever合作推动大模型强化学习研究,是o1系统的核心贡献者 [1][6] - 谷歌学术引用量2883次,h指数16,多篇高引论文涉及多智能体强化学习和非平稳环境适应 [7][8] - 加入Meta新成立的超级智能部门,专注推理大模型研发 [2] 苏黎世三人组 - 原谷歌研究员,共同开发ViT架构(论文引用超6.5万次),开创Transformer视觉应用先河 [14][15] - 2023年被OpenAI集体挖走并成立苏黎世工作室,2024年6月又集体跳槽至Meta [10][20][21] - 成员背景:翟晓华(南京大学本科/北大博士)、Lucas Beyer(德国亚琛工业大学博士)、Alexander Kolesnikov(ISTA博士) [16][17][18] 战略布局 语音AI - 拟收购初创公司PlayAI(2024年获2100万美元融资),其技术目标是实现类人类的流畅语音对话 [24][25] - 此前已招募Seasame AI的Johan Schalkwyk,强化端侧语音模型能力 [26] - 行业推测Meta计划将语音AI整合至AR硬件生态 [27] 研究领域 - 推理大模型:通过Trapit Bansal加盟强化前沿技术探索 [2] - 多模态:苏黎世三人组持续深耕视觉-语言交叉领域 [14][20]
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
机器之心· 2025-06-27 00:49
核心观点 - 清华大学自然语言处理实验室提出基于参考概率奖励的强化学习(RLPR)技术,解决了现有RLVR范式在通用领域的应用局限 [4][7][24] - RLPR通过Prob-to-Reward方法和动态过滤机制显著提升奖励质量和训练稳定性,在Gemma、Llama、Qwen等主流模型上验证有效 [7][8][22][24] - 该方法利用大语言模型生成参考答案的概率作为奖励信号,无需领域特定规则验证器,实现领域无关的高效奖励生成 [13][14] 技术原理 - 观察到LLM生成参考答案的概率与推理质量高度相关,错误推理会导致参考答案生成概率显著下降 [11] - 提出构建不含思维链过程的对照奖励,通过差值计算去除无关因素干扰,实现奖励纠偏 [16] - 采用基于奖励标准差的动态过滤机制,结合EMA更新阈值,提升训练稳定性 [17] 性能优势 - PR奖励在0.5B规模即优于规则奖励和验证器模型奖励,通用领域质量可达0.91 ROC-AUC [19] - 在Qwen2.5 3B模型上使用不同训练模板均能取得稳定性能提升 [21] - 在Gemma、Llama等基座模型上超越使用规则奖励的RLVR基线 [22] 应用价值 - 突破现有RLVR局限于数学/代码领域的限制,可拓展至自然语言通用领域 [3][4][24] - 仅需一次前向传播即可生成奖励,显著降低人力和工程资源投入 [13] - 相关代码、模型、数据和论文已全部开源 [8][9]
神经因子挖掘(五):强化学习混频Multi-StepDQN择时策略
长江证券· 2025-06-26 11:41
报告核心观点 - 设计 DQN 核心是学习给定市场状态下最优交易动作潜在价值,将其应用于中证 1000 指数日频择时,模型信号有有效预测能力,构建策略显著超越基准,多步优化 DQN 进一步提升信号质量和策略表现,证明其在量化择时领域潜力,但强化学习模型存在稳定性不足等问题 [3] 强化学习与量化投资 收益率预测模型存在的问题 - 传统机器学习和深度学习方法在股票收益率预测上虽能让投资者获稳定收益,但预测值与未来收益率相关系数难超 20%,预测准确率在 70%甚至 60%以下较常见,且使用负 IC 和均方误差作损失函数时预测值表现和投资收益相近,说明是模糊预测而非精确回归任务 [14] - 传统神经网络存在隐患,包括优化指标不直接,只能优化股票收益率或排序值预测能力来提升策略;生成投资组合流程不连续,因子挖掘、合成和组合优化步骤间断,预测指标提升不代表策略提升;在资产择时问题上因数据量少易过拟合 [16] 强化学习的基础概念 - 强化学习是学习在规则下交易资产,利用已知信息交易以优化策略目标,涉及智能体、环境、行为、状态、奖励、状态转移和回报等概念 [20] - 智能体根据状态做决策,环境是交互对象,行为是决策动作,状态是环境概括,奖励是环境反馈数值,状态转移是状态变化过程,回报是奖励总和,强化学习目标是寻找使回报最大化的最优策略 [21][22][23][24][25][30][31] 强化学习算法在量化中的应用 - 1996 - 2022 年学术界用强化学习研究量化金融文章近年激增,主要方法有基于价值学习的 DQN、Q 学习,基于策略学习的递归强化学习、策略梯度算法以及演员 - 评论家的 DDPG、PPO [35] - 本文采用使用最多的基于价值学习的 DQN 构建择时策略,虽 Actor - Critic 的 DDPG 算法也是好选择,但在本文框架下效果不佳,不同算法需精心设计体现优势 [37][39] DQN 与 Q - learning - 动作价值函数是计算基于指定策略采取动作的未来回报期望值,判断状态下动作好坏;最优动作价值函数是排除策略影响,只评价状态和动作好坏,Q 学习目的是学到最优动作价值函数,DQN 用神经网络替代 Q 表格近似 Q 函数 [40][41] - TD 算法训练 DQN 让 Q 网络对 t 时刻和下一时刻未来回报预测值之差接近真实奖励,更新 Q 网络的 MSE 损失函数基于此设计 [47] - DQN 训练有目标网络、ε - 贪婪策略和经验回放等优化技巧,目标网络切断自举缓解高估,ε - 贪婪策略提升探索能力,经验回放打破序列相关性、重复利用经验 [52][53][54] 日频择时策略 - 构建日频择时策略需定义强化学习五要素,环境是 A 股资产日频择时策略,状态是过去价量数据和持仓,智能体是神经网络,动作是做多、空仓和做空,奖励是结合交易成本的未来 5 日收益率 [58][62] - 网络结构对日频和分钟频数据用 GRU 提取信息,与持仓向量合并后经线性层等给出动作价值,输入数据经特征工程有 54 个特征,采用时序 Zscore 标准化 [59][64] 中证 1000 择时实践 - 以中证 1000 指数为标的,测试集 2022 年 7 月 22 日 - 2025 年 5 月 23 日,每年滚动训练,采用 50 次实验取平均缓解训练结果差异 [65] - 测试集结果显示,DQN 预测未来 5 日收益率表现上,做空信号胜率高,做多信号触发多且收益率大于零概率达 55.18%,空仓信号有做空价值,做多信号盈亏比高于做空信号 [68] - 构建的多空、多头和空头策略均跑赢基准,多空策略年化收益率 64.90%,但最大回撤高,空头策略稳定性好,仓位变化有连续性 [69][73] 优化:Multi - Step DQN - 多步 DQN 用多步奖励函数构造多步 TD 目标替代原始 TD 目标,减少 DQN 自举产生的高估问题,与蒙特卡洛方法相比各有优劣 [76] - 采用 3 步 TD 目标优化后,做多和做空信号比例更均衡,指标提升,各策略年化收益提高,风险控制指标改善,如多空策略年化收益率达 79.44% [79][83] 强化学习的不足 - 强化学习存在稳定性不足问题,算法本身不稳定,需多次训练取平均降低方差;超参数敏感,折扣因子等改变可能使效果失效;易样本内过拟合,样本内回测收益率远高于样本外;模型有黑箱性,预测值难解释 [85][86] 总结 - 传统量化投资方法有局限,强化学习可直接优化收益和风险指标,整合决策流程,缓解传统方法痛点 [89] - DQN 适合单一资产择时,应用于中证 1000 指数日频择时效果好,信号有效,策略跑赢基准,仓位连续合理,Multi - Step DQN 进一步优化信号质量和策略表现 [90][91] - 需认识到强化学习模型存在稳定性不足、超参数敏感、样本内过拟合和模型黑箱性等问题,实际投资不可完全依赖预测值 [91]