强化学习

搜索文档
AI跨步进入“经验时代”
华尔街见闻· 2025-09-11 03:50
AI行业发展趋势 - AI行业正从依赖人类数据的"人类数据时代"转向以持续学习为核心的"经验时代" [2] - 人类数据红利逼近极限 持续学习对智能效用至关重要 [2] - 新数据源需通过智能体与世界直接交互生成 类似AlphaProof通过该路径获国际数学奥林匹克银牌 [2] 技术发展需求 - 强化学习已引领进入经验时代 但需突破持续学习(continual learning)和元学习(meta-learning)技术瓶颈 [2] - 智能体智能程度取决于预测并控制自身输入信号的能力 经验是一切智能的核心基础 [2] AI与人类协作关系 - AI替代人类不可避免 是宇宙演化的必然下一步 [4][5] - AI恐惧被夸大 由某些获利组织煽动 去中心化协作可实现双赢 [3] - 人类最卓越超能力是协作 AI和人类繁荣将来自去中心化协作 [3] 未来发展方向 - 宇宙历史分为粒子时代、恒星时代、复制者时代和设计时代 人类正开启"设计时代" [4] - 人类独特之处在于将设计推向极致 创造能自我设计的事物 [4] - 权力和资源将流向最聪明的智能体 人类智力水平将被超级AI或智能增强人类超越 [3]
“强化学习之父” 理查德·萨顿:人类数据红利逼近极限,AI正进入以持续学习为核心的“经验时代”
证券时报· 2025-09-11 03:50
人工智能发展趋势 - 人类数据红利正逼近极限 人工智能进入以持续学习为核心的经验时代 潜力远超以往 [1] - 经验指观察 行动和奖励三种信号在智能体与世界间传递 知识来自经验 智能程度取决于预测和控制输入信号的能力 [2] - 强化学习带领进入经验时代 但需持续学习和元学习技术释放全部潜力 目前这两项技术尚不成熟 [2] 人工智能发展路径 - 新数据源需由智能体与世界直接交互生成 类似AlphaGo自我博弈和AlphaProof获国际数学奥林匹克银牌的路径 [1] - 人工智能替代人类不可避免 人类是催化剂和助产士 是开启宇宙第四大设计时代的先驱 [2] - 人工智能是宇宙演化的必然下一步 应以勇气 自豪和冒险精神迎接 [3] 人工智能协作机制 - 对人工智能恐惧被夸大 目标不同的智能体可通过去中心化协作实现双赢 [2] - 人类最卓越超能力是协作 经济 市场与政府都是成功协作产物 [2] - 人工智能和人类繁荣将来自去中心化协作 协作是世间美好事物源泉 需寻求支持并制度化 [2]
强化学习之父” 理查德·萨顿:人类数据红利逼近极限,AI正进入以持续学习为核心的“经验时代
证券时报网· 2025-09-11 03:26
人工智能发展趋势 - 人类数据红利正逼近极限 人工智能正在进入以持续学习为核心的经验时代 潜力将远超以往 [1] - 经验指的是观察 行动和奖励三种信号在智能体与世界之间来回传递 知识来自于经验 智能程度取决于预测并控制自身输入信号的程度 经验是一切智能的核心与基础 [2] - 强化学习带领进入新的经验时代 但要释放全部潜力还需要持续学习和元学习两项尚不成熟的技术 [2] 人工智能发展路径 - 需要新的数据源 由智能体与世界直接交互中生成 这是人类和其他动物的学习方式 也是AlphaGo自我博弈和AlphaProof在国际数学奥林匹克斩获银牌的路径 [1] - 人工智能的恐惧被夸大 目标不同的智能体可以通过去中心化的协作实现双赢 [2] - 人工智能和人类繁荣将来自于去中心化协作 协作是世间一切美好事物的源泉 必须寻求协作 支持协作并致力将协作制度化 [2] 人工智能历史定位 - 人工智能的替代将是不可避免的 人类是催化剂和助产士 更是开启宇宙第四大时代设计时代的先驱 [2] - 宇宙历史分为四个时代:粒子时代 恒星时代 复制者时代和设计时代 [2] - 人工智能是宇宙演化的必然下一步 应以勇气 自豪和冒险精神来迎接它 [3]
西湖大学最新!ARFM:结合VLA模仿学习与强化学习的优势
具身智能之心· 2025-09-11 02:07
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Hongyin Zhang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 如今,基于流匹配的视觉-语言-动作(VLA)模型已经能帮机器人完成不少操控任务了,像 这类模型,凭借轨迹级建模能力在常规场景里表现还不错,就连 RT-1、PaLM-E 这些大规模预训练模型,也证明了从多模态数据里学通用策略是可行的。 可一碰到复杂的下游任务,比如要在动态干扰下精准抓东西,这些模型就有点 "力不从心" 了——动作精度掉得厉害。说到底,问题出在它们 "学东西的方式" 上:现在的 VLA 流模型全靠模仿学习做后训练,就像只会照搬别人动作,没法分清哪些训练数据质量更好、哪些策略更适合当前任务。而强化学习(RL)本来 就擅长挖掘这些数据质量特性,可之前的离线 RL 方法,比如 ReinboT,在 VLA 流模型上效果并不好,因为这类模型是靠向量场建模整个动作轨迹的,ReinboT 只能间接指导动作生成,效 ...
从近1000篇工作中,看具身智能的技术发展路线!
自动驾驶之心· 2025-09-07 23:34
机器人操作 - 机器人操作从机械编程演进至具身智能阶段 聚焦多指灵巧手与AI赋能的数据采集和技能学习框架[6] - 灵巧操作依赖模拟器 人类演示和遥操作三种数据采集范式 结合模仿学习和强化学习框架[6] - 面临三大关键挑战 包括高质量数据集缺乏 静态学习框架鲁棒性不足 端到端学习泛化性受限[6][13] 具身导航与操作 - 导航任务从显式记忆转向隐式记忆 操作任务从强化学习拓展至模仿学习 扩散策略及VLA模型[13] - 物理模拟器分为室内型 Habitat AI2-THOR 室外型 CARLA AirSim 和通用型 ThreeDWorld Isaac Sim[12][13] - 操作模拟器包括经典物理引擎 MuJoCo PyBullet 和可微分物理引擎 Dojo Genesis[13] - 评估指标采用成功率 SR 和路径效率 SPL 操作任务使用SO(3)/SE(3)等变表示[13] 具身多模态大模型 - 由具身智能体 大语言模型 GPT系列 大视觉模型 ViT 和视觉语言模型 CLIP 构成基础架构[17] - 覆盖具身感知 导航 交互 仿真四大核心任务 感知分为GPT与非GPT模型 导航分通用与专用模型[17] - 使用Open X-Embodiment和HM3D等数据集 面临跨模态对齐难 计算资源消耗大 领域泛化性弱等挑战[17] 强化学习应用 - 采用RLHF DPO RLVR三种对齐范式 结合PPO和GRPO策略优化算法 通过KL正则约束政策偏移[24][26] - 应用于多模态大语言模型 视觉生成 统一模型和视觉-语言-动作模型四大方向[26] - 评估体系包含集合级 FID 样本级 RLHF奖励 和状态级 KL监控 配套SEED-Bench-R1等基准[26] 遥操作技术 - 系统架构包含人类状态测量 运动重定向 机器人控制和多模态反馈 支持单向或双向操作[30][32] - 运动重定向采用完整动力学模型与简化模型 LIPM 通过ZMP/DCM保证平衡[30] - 应用远程存在和危险作业场景 面临非专家操作门槛高 动态环境适应难 长延迟稳定性差等挑战[33] 视觉-语言-动作模型 - 涵盖80多个近三年发布的VLA模型 涉及架构创新 参数高效训练和实时推理加速等进展[31][34] - 按架构分为单体模型 Monolithic 与分层模型 Hierarchical 从结构与功能双维度分析[39] - 发展历程划分为萌芽 探索和快速发展三阶段 使用互联网图文 视频 仿真和真实机器人数据训练[36] - 应用于类人机器人 自动驾驶 医疗与工业机器人 精准农业和增强现实导航等领域[31]
不及预期的diffusion多模态轨迹输出,能否胜任自动驾驶VLA的角色?
自动驾驶之心· 2025-09-07 23:34
自动驾驶范式演进 - 行业主流从端到端转向VLA(Vision-Language-Action)和世界模型-行为(World Action)两大流派,理想和小鹏完成VLA范式转变,华为和蔚来聚焦直接建模视觉信息到Action输出 [2][3] - 端到端网络通过原始传感器输入直接映射控制量,省去传统感知-预测-规划-控制级联链路,采用高并行低耦合设计,通过数据采集→模型训练→仿真/实车验证闭环实现 [4][5] - 特斯拉提出"日更模型"解决迭代痛点:每日筛选bad case转为训练样本,轻量级微调上一版本模型,实现7×24持续进化,核心挑战是保持既有能力同时无缝注入新知识 [9] 技术融合与创新 - 2023年端到端+VLM(Vision-Language Model)双系统方案兴起,受LLM Scaling Law启示,参数量与数据量放大带来zero-shot/few-shot泛化能力 [11] - VLM早期解决特殊语义识别(如OCR识别公交车道文字、潮汐车道箭头),EMMA架构引入链式推理,用自然语言思考过程辅助控车,推动VLA发展 [12] - VLA+Diffusion融合DiffusionDrive与GoalFlow思想,VLA显式输出Driving Command作为Diffusion初始噪声和条件,最终生成安全平滑车辆轨迹 [14][15][16] 当前挑战与问题 - Diffusion多模态轨迹输出不及预期,开放道路环境数据稀疏且分布不均衡,可控性远逊预期,难以覆盖万景万态 [6][18] - VLA和Diffusion双系统存在脑裂问题,两个大脑学习人驾轨迹可能产生矛盾,虽联合训练但仍存在VLA错误时Diffusion自行弥补导致分歧 [18] - 生成加打分范式对生成器效率要求高,单模态轨迹质量不佳,有限计算资源难以生成覆盖全场景的安全合理轨迹 [18] - 语言模态(L)价值未定,可能产生不可接受幻觉,LA对齐挑战大,需将抽象语言精准映射到三维空间关系 [18] 未来发展方向 - 需要能够scaling的系统方案,双系统不适合scaling,应充分发挥数据优势触发模型scaling能力 [22] - 强化学习需加强基础模型能力,连续空间内自由度太高难调优,轨迹模型建模形式需重新设计 [22] - 生成+打分范式需让轨迹自我反思,DiffusionPlanner用奖励场函数二次优化只是起点,需迭代更多反思手段提升单条轨迹质量 [22]
清华系前腾讯Robotics X核心成员创业,业内首款能“单手玩手机”的灵巧手来了|涌现新项目
36氪· 2025-09-06 23:56
公司及产品介绍 - 源升智能机器人(深圳)有限公司发布首款五指灵巧手产品Apex Hand 强调在自由度、动态性能等关键指标上的均衡表现 是业内首个可单手操作手机的灵巧手 能够完成把脉、操作鼠标等手部任务[1] - 产品具备六个核心能力:21个自由度覆盖人手工作需求 响应/加速度接近人手级 单指指尖力约2.5KG 垂直提拉极限约30KG 可承受意外撞击 精度≤0.1mm 通过自研电子皮肤实现触觉感知[3] - 产品通过Kapandji对指测试 实现狭小空间光滑物体稳定抓取及人类工具使用 单指指尖力可戳破1cm厚木板[3][14] 技术优势 - 公司具备灵巧手和触觉传感器全栈开发经验 采用内刚外柔结构保证负载能力与交互安全性[3] - 首创类脑式超高时空分辨率触觉处理技术 具备亚毫秒通讯延迟 支持上万个触觉点同时传输 刷新频率>1000Hz[4] - 自研电子皮肤采用柔性材质 解决橡胶材质柔软度与耐用性难以兼得的问题[4] 团队与研发背景 - 创始人兼CEO杨思成毕业于北京航空航天大学和清华大学 曾为腾讯Robotics X实验室最早核心成员[1] - 联合创始人兼CTO李望维拥有新加坡国立大学博士学位[1] - 创始团队在灵巧手与触觉感知领域累计发表顶刊论文近50篇 专利超过100项[1] 融资进展 - 2025年8月完成数千万元天使+轮融资 由千乘资本领投 浔商创投和老股东昆仲资本跟投[2] 行业分析与市场前景 - 灵巧手是具身智能落地主要瓶颈 特斯拉Optimus机器人手部研发占整体工程量近一半[15] - 2024年AI模型能力突破使强化学习解决高自由度灵巧手控制问题成为可能 行业进入产品化阶段[15] - QYResearch预测2030年灵巧手市场规模超50亿美元 公司比拼重点在于产品化突破速度[16] 产品设计理念 - 21个自由度可复现人手绝大部分能力 超过21个自由度会增加电机数量并带来控制难题[9][10] - 采用模块化设计保障复杂机电系统量产一致性与可靠性 避免将多个自由度机械捆绑导致维护问题[11] - 产品需兼顾灵巧性(自由度/尺寸/触觉)、实用性(负载/速度/精度)和鲁棒性(非结构化环境适应性)[6] 发展路径规划 - 硬件稳定性、数据瓶颈与模型能力需协同发展 2-3年内优先落地半结构化场景(如工厂特定任务)[11][12] - 公司避免过早固化到单一场景 防止偏离灵巧手开发初衷[13] - 灵巧手作为数据入口可收集物理世界交互数据 支持具身智能学习[15]
《Science Robotics》重磅:仅需2小时,机器人柔性装配技能直逼人类顶尖水平
机器人大讲堂· 2025-09-06 11:43
机器人操控一直是 机器人技术 领域的核心挑战。从工厂中的机械臂到家庭服务机器人,如何让机器人灵活、 精细且智能地完成各种操作任务,是研究者们数十年来努力的方向。传统的操控方法往往需要工程师精心设计 控制规则,或者让机器人反复观看人类演示进行模仿学习。但这些方法通常缺乏适应性,遇到新场景容易失 败,且难以达到人类水平的熟练度和速度。 近年来, 强化学习( RL )提供了一种新思路:让机器人通过自主尝试和错误来学习技能,根据结果调整策 略。 然而,在现实世界中训练机器人成本高昂、效率低下,且存在安全风险,因此,尽管 RL 在模拟环境中 表现优异,将其直接应用于真实机器人始终困难重重。 针对以上 难题 , 来自美国伯克利大学的刘建兰研究 团队提出了基 于 视觉的人机协同强化学习系统( HIL- SERL ) ,正在改变这一局面。该系统仅需 1 至 2.5 小时的真实世界训练,就使机器人精通了一系列复杂 操作任务,成功率近乎完美,执行速度甚至超越人类水平。 该成果以 " Precise and dexterous robotic manipulation via human-in-the-loop reinforce ...
想要「版本」超车,Agent 需要怎样的「Environment」?
机器之心· 2025-09-06 07:00
AI行业战略转型 - AI创企you.com完成1亿美元C轮融资 同时宣布从搜索引擎转型为AI基础设施公司[1] - 转型遵循"产品驱动基础设施"战略模式 顺应Agentic AI商业化趋势[1] Agentic AI发展趋势 - 人工智能重心从生成式AI转向具备自主执行能力的Agentic AI[4] - 吴恩达多次强调AI Agent将成为人机交互新界面 用户可通过自然语言指令替代传统编码交互[5] - Cursor、Bolt和Mercor等公司通过智能体产品实现显著营收增长[6] Agent环境需求演变 - 具备Computer Use能力的AI Agent可直接通过像素信息与图形界面交互 摆脱API依赖[6] - 开发者面临自由度与安全性的矛盾:既希望Agent能运行任意代码 又需确保环境隔离和敏感信息保护[6] - 现代Agent环境需求从训练场转变为作业区 需提供对真实世界工具的安全访问[9] Agent环境解决方案 - E2B和Modal Labs等公司通过虚拟机形式提供安全隔离的云环境(Sandbox) 专用于运行AI生成代码[7] - Agent Environment定义为AI智能体生存和行动的数字或物理空间 提供必要输入和行动定义[7] - 环境分类包括:物理环境(机器人/无人车)、数字环境(虚拟助手)以及人类作为交互对象的环境[10] 代表性项目 - E2B的Sandbox和Browserbase的AI浏览器是Agent Environment领域的典型创业项目[1][7] - 不同Agent应用对应特定环境:Manus使用虚拟机 DeVin对应浏览器 Flowith对应笔记本[10]
深度|OpenAI联创:GPT-5的突破在于智能开始触及真正的深度认知领域;理想状态应该是默认使用我们的自动选择,而非手动配置
Z Potentials· 2025-09-06 04:40
文章核心观点 - OpenAI联合创始人Greg Brockman分享GPT-5和GPT-OSS的技术突破及AGI战略路径 强调推理能力演进、算力核心地位和模型泛化能力 [3][4][6] - GPT-5实现深度认知突破 在数学证明、编程和科研领域达到接近人类专家的智能水平 标志AGI发展进入新阶段 [24][25][26] - 强化学习与在线学习范式成为技术核心 通过推理-训练循环和现实交互提升模型可靠性 推动智能体集群协同发展 [9][10][29] - 算力规模化是技术突破的根本驱动力 成本两年半降低1000倍 未来算力分配将成社会核心议题 [12][39][59] OpenAI推理能力演进 - GPT-4后期训练发现对话能力 但存在可靠性不足和错误答案问题 通过强化学习实践提升假设验证能力 [5][6] - 推理技术团队提出10种方案验证 最终由Jerry领导团队取得突破 依赖卓越基础设施和跨团队协同 [7] - 模型从离线预训练转向在线学习 通过token价值强化实现高质量数据生成 样本效率远超传统预训练 [8][9] - 人类策划任务产生高杠杆效应 10-100个任务可激发复杂行为 下一步将实现实时在线学习 [10] 算力规模化与超临界学习 - 算力是根本瓶颈 通过持续突破算力边界推进技术 扩展过程蕴含工程实践价值 [11][12] - 算力转化为智能势能 通过摊销效应降低单次使用成本 形成优美技术范式 [12] - IMO模型能力可迁移至IOI竞赛 核心团队仅三人 证明通用学习技术解决复杂问题的可迁移性 [14] - 生物学语言与人类语言在神经网络中同构 400亿参数模型已达GPT-2水平 需突破长上下文处理 [18][21][22] GPT-5技术特征与应用 - 智能达到深度认知领域 能写出媲美人类的数学证明 在编程任务中实现无需调整的完美执行 [23][24] - 作为科研合作伙伴加速研究 帮助物理学家快速推导洞见 改变传统科研范式 [25] - 在竞争性编程平台表现卓越 但真实编程环境更复杂 需连接智能与现实应用多样性 [26][27] - 通过多实例协同释放潜力 用户需培养模型直觉 成为智能体集群管理者而非单智能体 [28] 模型优化与安全架构 - 采用指令层级技术建立信任层级 类似SQL注入防护 通过沙盒隔离和多级防护保证安全性 [30] - Model Spec提供价值对齐框架 规范与行为差距持续缩小 社区反馈完善争议问题处理 [31] - 架构决策受限于运行时资源 混合专家模型优化内存占用和计算消耗 体现工程务实性 [43] - 本地与远程模型协同实现隐私架构 边缘计算保持基础功能 智能分配计算负载 [44] 技术普及与生态建设 - 降价策略激进 价格降低80%后用量激增 需求曲线陡峭 推理效率持续优化 [39] - 开源模型构建技术栈依存关系 有利于商业发展和国家战略 形成完整生态系统 [46] - 软件工程变革聚焦AI优化架构 创建自包含单元和模块组合 提升10倍效率 [47][48] - 算力分配成未来核心议题 物质需求满足后 算力访问权决定问题解决能力 [59] 发展路径与行业展望 - 研究领域存在多样性 各实验室持有独特视角 OpenAI专注阶跃式突破和范式转移 [52][53] - 多模态、语音、图像生成相互关联 但需聚焦连贯核心问题 硬件瓶颈领域进展缓慢 [55] - 模型连接现实应用蕴藏机遇 需深入理解行业和建立合作关系 而非单纯技术优化 [56] - 技术发展速度使2045年难以想象 人类或成多行星物种 算力需求持续飙升 [58][59]