强化学习
搜索文档
基于深度强化学习的轨迹规划
自动驾驶之心· 2025-08-28 23:32
强化学习技术范式演进 - 业界从端到端自动驾驶转向VLA和强化学习等新技术范式 [4] - 强化学习在2018年AlphaZero和2023年ChatGPT RLHF推动下获得更广泛应用潜力 [4] - 2025年初DeepSeek-R1在线推理进一步拓展强化学习使用场景 [4] 学习范式对比 - 监督式学习通过海量数据拟合输入到输出的映射函数 优化目标为平均均方误差值 [5] - 模仿学习以专家动作为监督信号进行行为克隆 在自动驾驶中扩展为短时序轨迹学习 [6] - 强化学习通过环境交互和任务结果反馈优化模型 采用延迟满足的时序决策机制 [7] - 逆强化学习通过用户反馈学习reward-model 解决奖励函数难以定义的问题 [8] 基础理论框架 - 马尔可夫决策过程将时序任务分解为状态概率转移任务 适用于自动驾驶目标生命周期管理 [10] - 动态规划通过分解最优子问题解决离散空间时序任务 [12] - 蒙特卡洛方法利用大数原理统计系统宏观特性 [13] 核心概念体系 - 策略分为确定性和随机性两种 自动驾驶通常采用确定性策略 [14] - 奖励函数提供环境反馈 价值回报定义为衰减因子加权和的时序期望值 [15] - 状态价值函数表示状态期望回报 动作价值函数评估状态动作组合的期望回报 [16][17] - 优势函数衡量动作价值与状态价值的差异 [19] - 贝尔曼方程通过动态规划分解价值函数 [20] 算法分类体系 - 值优化方法直接最大化Q或V函数 包括动态规划/蒙特卡洛/时序差分算法 [25][26] - 策略优化分为on-policy和off-policy两种 后者训练稳定性更好但存在分布偏差 [27][28] - 动态规划采用策略迭代和价值迭代算法求解离散任务 [30] - 蒙特卡洛方法通过统计平均估计价值函数 [32] - 时序差分算法引入常数alpha简化更新过程 衍生出SARSA和Q-learning等算法 [34][39] 深度强化学习算法 - DQN算法通过经验回放和目标网络解决连续状态表达问题 [41] - Dueling DQN将价值网络分解为Q和A的和并增加正则项 [42] - GAE算法结合蒙特卡洛和时序差分进行优势估计 [42] - 策略梯度算法使用梯度下降方式更新策略参数 [46] - Actor-Critic算法同时学习策略和价值函数 [49] - TRPO算法通过置信区间约束保证训练稳定性 [53] - PPO算法简化TRPO约束条件为clip函数 [55] - GRPO算法采用在线group样本统计平均替换value-model [57] 自动驾驶应用实践 - 预训练通过模仿学习任务初始化策略和价值网络 [58] - 策略梯度采用概率建模方法处理action输出 [59] - reward设计涵盖安全性/安心感/效率等指标 高级功能通过逆强化学习实现 [60] - 闭环训练需要多智能体博弈建模环境动态响应 [60] - 端到端强化学习需实时生成更新后的sensor内容 [61]
理想汽车高管解读Q2财报:将通过辅助驾驶的深度焕新强化产品竞争力
新浪科技· 2025-08-28 14:46
销量目标达成策略 - 通过智能辅助驾驶深度焕新强化增程车型竞争力 巩固基本盘[1] - 纯电产品线形成梯次发力格局 理想MEGA月销稳定在3000台以上 理想i8九月底目标累计交付8000至10000台 九月将发布面向年轻用户的走量主力车型i6[3] - 采用区域化营销策略 北方区域聚焦增程车型推广冬季续航优势 南方区域侧重纯电车型节能空间智能卖点[3] - 优化一二三线城市门店组合与选址 平衡商场店高获客和中心店高转化能力 形成闭环提升线下运营效率[4] - 通过繁星店轻量化模式快速覆盖四五线城市 增加门店密度挖掘下沉市场潜力[4][5] - 搭建精细化数字化营销平台 优化客群定位线索获取商机转化全链条 精准判断线上营销投入有效性[3] 自研芯片与智能驾驶进展 - 九月增程全系AD Max车型升级VLA智能辅助驾驶 参数规模达40亿 较前代端到端模型提升超10倍[2] - VLA实现行车端平顺性舒适性显著优化 泊车端远程召唤与自动泊车功能获用户高度认可[2] - 已搭建支撑强化学习的仿真环境 依托世界模型实现场景数据重建生成 推动VLA模型快速迭代保持行业领先[2] - VLA架构契合人类智能进化逻辑 获更多同行认可加入研发阵营[2] 产品与技术布局 - 增程技术作为行业引领者 以智能辅助驾驶巩固基本盘[1] - 纯电车型形成梯次发力格局 理想i8试驾反馈良好正推进产能爬坡[3] - 理想i6设计兼顾舒适运动与空间体验 精准匹配年轻用户需求[3]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-28 08:36
具身智能技术社群成立 - 行业成立具身智能之心技术交流群 重点关注视觉语言导航 视觉语言动作 遥操作 扩散策略 强化学习 仿真到现实迁移 多模态大模型 运动控制 目标导航 建图定位等技术方向[1] - 行业社群面向机构及学校研究人员开放 需通过指定联系方式备注机构名称 个人姓名及研究方向完成入群申请[2][3]
波士顿动力机器狗侧空翻炸场!穿轮滑鞋照样能翻
量子位· 2025-08-28 06:46
波士顿动力Spot机器狗技术突破 - 完成高难度动作包括侧空翻和连续三个后空翻 动作涵盖蓄力、弹跳、旋转、落地、缓冲及调整全流程 [1][3][5] - 空翻动作并非初始设计目标 工程师表示未预先设定该能力 [7] - 硬件规格:身高84cm、长110cm、宽50cm、净重32.5kg 配备12个自由度(每条腿3个)及5对立体摄像机 [22] 功能性应用场景 - 具备负重爬楼、勘测扫描及开门等实用操作能力 [10][12][14] - 核心价值体现在工业场景的实际任务执行而非娱乐表演 [16][17] - 空翻动作本质是极端测试手段 用于验证系统硬件强度、算法稳定性及子系统协同效能 [20] 技术开发方法论 - 采用仿真环境强化学习与真机测试迭代结合的训练模式 [22] - 通过高难度动作测试提升机器狗自主恢复能力 确保在滑倒或障碍环境中能独立起身 [18][19][21] - 相关技术细节参考论文《High-Performance Reinforcement Learning on Spot》 [22] 品牌历史与商业背景 - 2016年推出Spot机器狗 2018年已具备舞蹈表演能力(如《Uptown Funk》编舞) [27][28] - 2020年参与多机器人协同舞蹈表演 [31] - 2020年12月韩国现代集团收购波士顿动力80%股份 2021年6月实现全资控股 [31] 娱乐化应用与公众展示 - 空翻动作为参加《美国达人秀》表演做准备 [25] - 历史娱乐案例包括2018年"七狗观音"群组表演(配合防弹少年团音乐) [30] - 舞蹈表演长期作为技术测试的衍生应用场景 [33]
具身智能之心B端和C端培训老师招募来啦~
具身智能之心· 2025-08-28 01:20
业务模式 - 公司开展B端和C端培训业务 B端主要面向企业和高校及研究院所 C端面向学生和求职人群[1][3] - 业务内容包括制定课程大纲和制作课程材料[3] 技术方向 - 培训内容涵盖VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等前沿技术领域[2] 人才要求 - 要求博士及以上学历(包含在读)[3] - 需具备2篇A会或一区以上期刊/会议发表或2年及以上工业界经验[3] 合作方式 - 通过微信平台进行业务咨询(微信号:oooops-life)[4] - 提供高于行业水平的酬金待遇[1]
斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
具身智能之心· 2025-08-28 01:20
文章核心观点 - 提出一种名为RTR的创新软硬件协同系统,通过“教师”机械臂在现实世界中“手把手”地指导“学生”人形机器人进行在线强化学习,以突破人形机器人真机强化学习的瓶颈 [3][5][7] - RTR系统结合了主动物理辅助硬件与高效算法,实现了在真实环境中对机器人策略进行安全、高效的在线微调,显著提升了数据效率和性能 [7][12][14] - 该方法在行走和“荡秋千”两个任务中得到验证,仅需20分钟的真实世界训练即可将仿真预训练的行走策略速度提升一倍,并在20分钟内从零学会周期性摆荡动作 [14][18] 方法 硬件设置 - 硬件系统由“教师”和“学生”两组机器人组成:教师系统核心是带力-矩传感器的UR5六轴机械臂,通过四根弹性缆绳柔性连接学生机器人肩部;学生系统基于拥有30个自由度的开源ToddlerBot人形机器人 [9] 算法设计 - Sim-to-Real过程分为三阶段:首先在大量域随机化仿真环境中训练接受隐变量z输入的控制策略;其次在仿真中优化一个“通用”初始隐变量作为真实世界微调的起点;最后在真实世界冻结策略网络,仅在线优化低维隐变量z以实现高效微调 [10][12] - 使用FiLM层将环境动力学相关的隐变量融入策略网络,其效果优于直接将环境动态变量拼接到策略网络观测中的方法 [10][17] 实验验证 行走任务 - 消融实验表明,能够主动顺应机器人运动的“柔性”机械臂辅助结合从高辅助过渡到零辅助的课程学习策略,其效果优于固定吊架或固定辅助策略 [14] - RTR提出的“微调隐变量”方法在数据效率和最终性能上均优于微调整个策略网络或微调残差网络的基线方法 [14] 荡秋千任务 - 在纯真实环境强化学习任务中,教师机械臂通过实时力反馈感知摆动相位,在适当时机给予帮助或扰动,其效率高于教师仅作为固定吊架的方案 [18] - 整个学习过程从零开始,在20分钟内学会了幅度明显的周期性摆荡动作 [18] 总结与展望 - RTR框架引入了主动力辅助的新范式,其极具扩展性的框架未来可推广至全尺寸人形机器人及其他复杂机器人系统的真实世界强化学习任务中 [16]
打破瓶颈,让RAG学会思考:中科大、智源等发布推理检索框架BGE-Reasoner
机器之心· 2025-08-27 08:36
核心观点 - BGE-Reasoner在推理密集型信息检索领域取得突破性进展 以45.2分刷新BRIGHT基准纪录 领先第二名3.6分[2][12][14] - 该技术通过三阶段模块化框架解决复杂查询问题 显著提升RAG和AI Agent在深度研究场景的推理能力[3][8][19] - 创新性采用大模型合成数据与强化学习技术 突破训练数据稀缺和困难样本泛化的行业瓶颈[4][5][22] 技术架构 - 提出可复制的三模块框架:Rewriter实现查询理解与改写 Embedder负责向量检索 Reranker进行精排[3][19][24] - 基于Qwen系列模型微调:Rewriter采用Qwen2.5-7B-Instruct Embedder基于Qwen3-8B Reranker基于Qwen3[21][22] - 端到端工作流程:原始查询经改写后 由Embedder与BM25并行检索 最终通过Reranker输出排序[19][24] 性能表现 - 在BRIGHT基准取得45.2分 超越蚂蚁集团DIVER(41.6分)和百度ReasonRank(40.8分)等竞争对手[12][14] - 向量模型BGE-Reasoner-Embed获得32.5分 显著优于Seed1.5-Embedding(27.2分)和Qwen3-Embedding等基线[12][15] - 测试时扩展技术增强排序稳健性 强化学习提升困难样本推理能力[5][22] 数据创新 - 利用大模型合成多领域训练数据 覆盖数学与代码等推理密集型场景[4][21] - 通过教师模型生成推理路径 采用拒绝采样策略构建高质量训练样本[21] - 合成数据有效解决行业数据稀缺瓶颈 验证于BRIGHT基准的显著性能提升[4][22] 行业影响 - 推动RAG技术在复杂推理任务发展 解决AI Agent智能化的核心难题[2][8] - 模型权重与训练代码即将开源 促进检索与人工智能领域研究应用[6][25] - 由中科大 智源研究院 北邮与港理工联合研发 体现中国在AI前沿领域的创新能力[2][25]
Meta万引强化学习大佬跑路,用小扎原话作为离别寄语,扎心了
36氪· 2025-08-27 06:48
核心事件 - Meta强化学习研究员Rishabh Agarwal宣布离职 决定不加入公司新组建的超级智能实验室 选择尝试全新职业道路 [1] - 另一位在Meta工作12年的资深员工同期离职 加入竞争对手Anthropic的推理团队 [15] 人才背景 - Rishabh Agarwal为AI领域顶尖研究人员 拥有谷歌学术论文引用量10,392次 h-index指数达34 [5][6] - 曾获NeurIPS 2021杰出论文奖 论文主题为深度强化学习统计不稳定性分析 [3][11] - 职业生涯覆盖谷歌Brain、DeepMind及Meta 累计7.5年从业经验 [1][7][11] - 参与谷歌Gemini 1.5(引用2,508次)、Gemma 2(引用1,224次)等核心项目开发 [3][6][11] 技术贡献 - 在Meta期间主导推理模型后训练工作 包括使用强化学习规模化训练8B参数稠密模型 达到接近DeepSeek-R1性能水平 [13][16] - 开发训练中途引入合成数据技术 为强化学习提供热启动机制 [16] - 提出高效on-policy蒸馏方法 提升模型训练效率 [16] 行业影响 - Meta近期出现资深研究人员流失趋势 与公司招聘新人才导致的内部薪酬待遇差异有关 [17] - 人工智能领域高端人才竞争加剧 头部企业间人才流动频繁 [15][17]
打磨7年,李航新书《机器学习方法(第2版)》发布,有了强化学习,赠书20本
机器之心· 2025-08-27 03:18
文章核心观点 - 李航老师推出了新版教材《机器学习方法(第2版)》,旨在构建一个覆盖监督学习、无监督学习、深度学习与强化学习的完整知识框架,以反映当前机器学习技术的全貌[4][5] - 新版教材是对其经典著作《统计学习方法》系列的全面更新和扩展,新增了深度学习和强化学习等关键内容,以解决现有教材内容滞后于技术快速发展的问题[3][4] - 该书定位为大学教材、辅助读物或专业人员的参考书,历时7年完成,标志着作者最初写作规划的最终版[22] 书籍内容与结构 - 全书共分为4篇,分别对应监督学习、无监督学习、深度学习和强化学习四个主要分支[5] - 第1篇监督学习介绍了线性回归、感知机、支持向量机、最大熵模型与逻辑斯谛回归、提升方法、隐马尔可夫模型和条件随机场等方法[7] - 第2篇无监督学习介绍了聚类、奇异值分解、主成分分析、马尔可夫链蒙特卡罗法、EM算法、潜在语义分析、潜在狄利克雷分配等方法[8] - 第3篇深度学习介绍了前馈神经网络、卷积神经网络、循环神经网络、Transformer、扩散模型、生成对抗模型等方法[9] - 第4篇强化学习是新增且独立成篇的内容,系统介绍了马尔可夫决策过程、多臂老虎机、近端策略优化、深度Q网络等方法[4][10] 书籍特点与更新 - 新版教材不仅新增了强化学习篇章,还增加了若干监督学习方法(如线性回归),并根据读者反馈对监督学习的大部分内容和无监督学习的少部分内容做了大幅修改[11] - 书中删除了部分目前已不常用的技术,如部分机器学习优化算法[11] - 每章详细介绍一两种机器学习方法,从具体例子入手,并由浅入深地给出严格的数学推导,以帮助读者直观理解基本思路并掌握基本原理[12] - 书中包含公式和图表,适合作为教材,并为满足进一步学习需要,总结了方法要点、提供了习题并列出主要参考文献[18][19] - 全书统一了符号用法,修改了几十处错误,并重新绘制了几乎所有的插图,以增加可读性[21] 作者与背景 - 作者李航是ACM Fellow、ACL Fellow和IEEE Fellow,拥有京都大学和东京大学的学术背景,并曾任职于NEC中央研究所、微软亚洲研究院、华为诺亚方舟实验室,目前在字节跳动Seed部门工作[24] - 其主要研究方向为自然语言处理、信息检索、机器学习、数据挖掘[24] - 该书从2018年开始写作,历经2022年出版的第1版(增加了深度学习内容),至2024年12月完成第2版,总计历时7年[22]
手把手教机器人:斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
机器之心· 2025-08-27 00:46
核心观点 - 人形机器人运动控制领域正成为强化学习算法应用的热点 采用仿真到现实范式训练通用控制模型 但该方案牺牲了特定真实环境中的性能上限[2] - 提出创新的RTR系统 使用教师机械臂在现实世界指导学生人形机器人进行在线强化学习 突破真机训练障碍[4][6] - RTR系统通过硬件协同和算法创新实现三阶段高效微调 在行走和荡秋千任务中展现卓越性能 仅需20分钟真实训练即可将仿真预训练速度提升一倍[6][15][19] 技术方案 - 硬件系统由教师UR5六轴机械臂与学生ToddlerBot人形机器人组成 通过四根弹性缆绳柔性连接 配备力传感器和可编程跑步机[8] - 教师机械臂扮演多重角色:安全保护装置 自动重置帮手 训练数据信号源 以及通过课程学习设置进度和施加扰动的智慧教练[5] - 算法采用三阶段Sim-to-Real流程:先在仿真环境训练适应不同物理参数的策略 再优化通用初始隐变量 最后在真实世界仅在线优化低维隐变量z[9][10][11] 性能表现 - 在行走任务中 主动顺应机器人运动的柔性机械臂比固定吊架显著提升学习效果 课程学习策略优于固定辅助策略[15] - 微调隐变量方法在数据效率和最终性能上均优于微调整个策略网络或残差网络基线 真机微调效果强于RMA等在线参数识别基准[6][18] - 在纯真实环境荡秋千任务中 有教师主动参与的课程学习效率高于固定吊架方案 20分钟内学会幅度明显的周期性摆荡动作[19] 应用前景 - RTR框架为解决当前人形机器人真机部署与训练瓶颈提供可行方案 引入主动力辅助新范式[17] - 该框架具有高度扩展性 可通过更强工业机械臂或力传感龙门吊系统推广至全尺寸人形机器人及其他复杂机器人系统[17] - 项目代码已全部开放 被CoRL 2025会议接收 由清华大学和斯坦福大学研究人员共同完成[22]