元学习

搜索文档
外滩大会速递(1):萨顿提出AI发展新范式,强化学习与多智能体协作成关键
海通国际证券· 2025-09-12 02:47
行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2][3][4][5][6] 核心观点 - 图灵奖得主理查德·萨顿提出AI发展正进入"经验时代",强调自主交互与环境反馈为核心,强化学习与多智能体协作是实现该愿景的关键路径 [1] - 当前机器学习多数局限于对人类已有知识的静态迁移,真正能创造新知识的系统需依靠智能体在与环境直接交互中持续生成数据 [1] - 社会对AI偏见、失业及生存风险的担忧被过度放大,应通过多智能体协作机制实现共赢 [1] - 萨顿提出"四条预测原则":价值观多元共存、人类将深入理解并创造智能、超级AI或人机增强系统终将超越人类智力、权力与资源将向最高效智能体集中且"替代"成为必然 [1] - 宇宙演进被划分为粒子、恒星、复制者与设计四个时代,人类核心使命在于推进"设计",AI是迈向"设计时代"不可或缺的动力 [1] 技术范式转变 - 数据定义从静态人类语料转变为动态智能体-环境交互轨迹,意味着学习目标与系统架构的根本重构:从被动拟合数据分布转向主动预测并控制自身观测输入的能力 [2] - AlphaGo自我博弈与AlphaProof生成式推理被视为"经验优先"方法论的有效验证 [2] - 产业落地需将模型从"信息消费"角色转变为可与环境实时交互、闭环试错并持续积累能力的"智能作用体" [2] - 企业需构建具备高频交互、在线评估与能力沉淀功能的智能体运营(Agent-Ops)体系,以实现新知识自动生成与跨任务迁移 [2] 技术瓶颈与研发重点 - 强化学习核心瓶颈并非模型参数规模,而在于时间维度与任务序列处理能力,具体表现为持续学习与元学习两大短板的制约 [3] - 持续学习需克服灾难性遗忘,实现动态表征与非平稳环境中的稳定收敛;元学习要求模型具备跨任务快速迁移与重组能力,训练评估单位需从"样本"升级为"任务" [3] - 这两项能力决定系统是否具备长期演进与泛化复用潜力:缺乏则仅适用于封闭短周期任务,突破则有望在开放环境中越用越强 [3] - 企业研发重心应从追求单点性能突破(SOTA)转向构建长周期评估体系、非平稳任务基准,以及推进记忆机制、规划架构与探索策略的工程化与系统集成 [3] 多智能体协作与治理 - "去中心化协作"不仅是技术架构选择,更是关乎系统治理机制的重要命题,需将机制设计理念引入AI系统工程实践 [4] - 多智能体协作类比市场与政府分工机制,其有效运作依赖明确激励、透明协议及可验证合约的支撑 [4] - 若"权力与资源向最高效智能体集中"成为趋势,需构建三方面基础制度:开放接口与可组合协议防范垄断、合作与对抗并存的博弈测试体系避免激励扭曲、可审计可追溯的责任认定工具量化协作外部性 [4] - 缺乏系统性治理设计,"去中心化"易流于概念,难以实现可持续可信赖的协作生态 [4] 人机协作与组织变革 - AI替代集中于任务层级而非完整岗位,企业应主动推进任务解构与流程重组,系统化布局人机协作体系 [5] - 具体路径包括:制定明确的人机分工框架形成"人类决策—AI探索—AI执行—人类审计"闭环机制、构建经验采集与策略回灌体系将交互数据沉淀为可复用策略资产、改革绩效管理机制以协同效率为导向的KPI替代单一产出指标 [5] - 该体系顺应AI替代带来的效率提升需求,为可持续人机协同提供制度化抓手,有助于企业在智能化转型中保持竞争力和控制力 [5]
外滩大会再证蚂蚁的底色:金融科技公司
每日商报· 2025-09-11 23:04
商报讯(记者 张玲丽 吕文鹃)昨天上午,以"重塑创新增长"为主题的2025 Inclusion·外滩大会在上海黄 浦世博园区开幕,来自16个国家和地区的550位嘉宾参会分享,包括新晋图灵奖得主理查德·萨顿 (Richard Sutton),阿里云创始人、之江实验室主任王坚,"人类简史系列"作者尤瓦尔·赫拉利(Yuval Noah Harari),宇树科技创始人兼首席执行官王兴兴等全球顶尖学者、产业界人士、青年创业者和科学 家,共同探索智能时代的创新路径与商业未来。 今年大会内容呈现国际化、多元化特色,聚焦"金融科技""人工智能与产业""创新创投生态""全球对话 与合作""负责任创新与普惠未来"五大内容主线,设置了1场开幕主论坛、44场见解论坛、科技展览和系 列科创活动。作为年度备受瞩目的金融科技盛会,外滩大会以其开放、多元、前瞻性吸引全球目光,被 誉为"亚洲三大金融科技盛会"之一。 图灵奖得主理查德·萨顿外滩大会分享 人工智能进入"经验时代" ,潜力远超以往 在昨天上午的开幕主论坛上,2024年图灵奖得主、"强化学习之父"理查德·萨顿(Richard Sutto n)发表 主旨演讲,他认为,人类数据红利正逼近 ...
对AI的恐惧被夸大了,“强化学习之父”萨顿外滩演讲:四条原则预言AI未来
36氪· 2025-09-11 08:34
智东西9月11日报道,今日上午,在2025 Inclusion·外滩大会开幕式上,2024年图灵奖得主、"强化学习之父"理查德·萨顿(Richard Sutton)发表 主旨演讲。他认为,人类数据红利正逼近极限,人工智能(AI)正在进入以持续学习为核心的"经验时代",潜力将远超以往。 知识来自于经验,可以从经验中学习。一个智能体的智能程度,取决于它能预测并控制自身输入信号的程度。经验是一切智能的核心与基础。 强化学习带领我们进入了新的经验时代,但要释放全部潜力,还需要两项目前尚不成熟的技术——持续学习(continual learning)和元学习 (meta-learning)技术。 面对外界对AI带来偏见、失业甚至人类灭绝的担忧,萨顿认为,这种对AI的恐惧被夸大了,并且是被某些从中获利的组织和个人煽动起来 的。 "人类最卓越的超能力,就在于比其他任何动物都更擅长协作。"在萨顿看来,AI和人类繁荣将来自于去中心化协作。目标不同的智能体,可以 通过去中心化的协作实现双赢。 他预测当今人类的智力水平,很快将会被超级人工智能,或者超级智能增强的人类远远超越,权力和资源会流向最聪明的智能体。 在人类的发展进程中,A ...
图灵奖得主理查德·萨顿:人类将开启“宇宙第四大时代”
21世纪经济报道· 2025-09-11 05:45
萨顿解释,"经验"指的是观察、行动和奖励,这三种信号在智能体与世界之间来回传递。 "知识来自于经验,可以从经验中学习。一个智能体的智能程度,取决于它能预测并控制自身输入信号 的程度。经验是一切智能的核心与基础。"他同时指出,强化学习带领我们进入了新的经验时代,但要 释放全部潜力,还需要两项目前尚不成熟的技术——持续学习(continual learning)和元学习(meta- learning)技术。 面对外界对AI带来偏见、失业甚至人类灭绝的担忧,萨顿认为,这种对人工智能的恐惧被夸大了,并 且是被某些从中获利的组织和个人煽动起来的。他以经济社会的运行为例,只有当每个人有不同的目标 和能力,经济才能运行得最好。同样,目标不同的智能体,可以通过去中心化的协作实现双赢。 (原标题:图灵奖得主理查德·萨顿:人类将开启"宇宙第四大时代") 21世纪经济报道记者李览青 上海报道 9月11日,2025 Inclusion·外滩大会在上海黄浦世博园区开幕。2024年图灵奖得主、"强化学习之父"理查 德·萨顿(Richard Sutton)发表主旨演讲,他对人工智能的未来提出四条基于现实的"预测原则"。他认 为,在人类的发 ...
图灵奖得主理查德·萨顿:人工智能进入“经验时代”,潜力超以往
贝壳财经· 2025-09-11 04:47
人工智能发展现状 - 人类数据红利正逼近极限 大多数机器学习目标是将人类已有知识转移到静态AI [1][2] - 现有方法不能生成新知识 不适合持续学习 而持续学习对智能效用至关重要 [2] - 强化学习带领进入经验时代 需要智能体与世界直接交互生成新数据源 [2] 经验时代技术方向 - 经验指观察 行动和奖励三种信号在智能体与世界间传递 知识来自于经验 [2] - 智能体智能程度取决于预测并控制自身输入信号的程度 经验是一切智能核心 [2] - 释放全部潜力需要持续学习技术和元学习技术 目前这两项技术尚不成熟 [2] 人工智能协作理念 - 对人工智能恐惧被夸大 是被某些从中获利组织和个人煽动 [3] - 目标不同智能体可通过去中心化协作实现双赢 人工智能和人类繁荣将来自去中心化协作 [3] - 人类最卓越超能力在于比其他动物更擅长协作 经济市场与政府都是成功协作产物 [3] 人工智能未来预测 - 对世界如何运转没有共识 没有哪种看法能凌驾其他 [3] - 人类将真正理解智能并借助技术创造出来 [3] - 当今人类智力水平将被超级人工智能或超级智能增强人类远远超越 [3] - 权力和资源会流向最聪明智能体 人工智能替代将不可避免 [3] 宇宙时代与人工智能定位 - 宇宙历史分为粒子时代 恒星时代 复制者时代和设计时代 [4] - 人类独特之处在于把设计推向极致 创造出能自己设计的事物 [4] - 人类是催化剂和助产士 是开启宇宙第四大时代设计时代的先驱 [4] - 人工智能是宇宙演化必然下一步 应以勇气自豪和冒险精神迎接 [4]
图灵奖得主理查德·萨顿2025外滩大会演讲:经验是一切智能的核心与基础
央广网· 2025-09-11 04:06
央广网上海9月11日消息(记者 殷雨婷)今天上午,2025 Inclusion·外滩大会在上海黄浦世博园区开幕。2024年图灵奖得主、"强化学习之父"理查德·萨 顿(Richard Sutton)发表主旨演讲。 萨顿在发言中表示,今天大多数机器学习的目标,是把人类已有的知识转移到静态、缺乏自主学习能力的 AI 上。"我们逐渐达到人类数据的极限,现有 的方法不能生成新的知识,不适合持续学习,而持续学习对智能的效用至关重要。"他认为,我们正进入"经验时代",需要一种新的数据源,由智能体与世 界直接交互中生成。 萨顿解释,"经验"指的是观察、行动和奖励,这三种信号在智能体与世界之间来回传递。"知识来自于经验,可以从经验中学习。一个智能体的智能程 度,取决于它能预测并控制自身输入信号的程度。经验是一切智能的核心与基础。"他同时指出,强化学习带领我们进入了新的经验时代,但要释放全部潜 力,还需要两项目前尚不成熟的技术——持续学习(continual learning)和元学习(meta-learning)技术。 展望人工智能的未来,他提出了四条现实的"预测原则":第一,对世界应该如何运转并没有共识,但没有哪一种看法能够 ...
AI跨步进入“经验时代”
华尔街见闻· 2025-09-11 03:50
AI行业发展趋势 - AI行业正从依赖人类数据的"人类数据时代"转向以持续学习为核心的"经验时代" [2] - 人类数据红利逼近极限 持续学习对智能效用至关重要 [2] - 新数据源需通过智能体与世界直接交互生成 类似AlphaProof通过该路径获国际数学奥林匹克银牌 [2] 技术发展需求 - 强化学习已引领进入经验时代 但需突破持续学习(continual learning)和元学习(meta-learning)技术瓶颈 [2] - 智能体智能程度取决于预测并控制自身输入信号的能力 经验是一切智能的核心基础 [2] AI与人类协作关系 - AI替代人类不可避免 是宇宙演化的必然下一步 [4][5] - AI恐惧被夸大 由某些获利组织煽动 去中心化协作可实现双赢 [3] - 人类最卓越超能力是协作 AI和人类繁荣将来自去中心化协作 [3] 未来发展方向 - 宇宙历史分为粒子时代、恒星时代、复制者时代和设计时代 人类正开启"设计时代" [4] - 人类独特之处在于将设计推向极致 创造能自我设计的事物 [4] - 权力和资源将流向最聪明的智能体 人类智力水平将被超级AI或智能增强人类超越 [3]
“强化学习之父” 理查德·萨顿:人类数据红利逼近极限,AI正进入以持续学习为核心的“经验时代”
证券时报· 2025-09-11 03:50
人工智能发展趋势 - 人类数据红利正逼近极限 人工智能进入以持续学习为核心的经验时代 潜力远超以往 [1] - 经验指观察 行动和奖励三种信号在智能体与世界间传递 知识来自经验 智能程度取决于预测和控制输入信号的能力 [2] - 强化学习带领进入经验时代 但需持续学习和元学习技术释放全部潜力 目前这两项技术尚不成熟 [2] 人工智能发展路径 - 新数据源需由智能体与世界直接交互生成 类似AlphaGo自我博弈和AlphaProof获国际数学奥林匹克银牌的路径 [1] - 人工智能替代人类不可避免 人类是催化剂和助产士 是开启宇宙第四大设计时代的先驱 [2] - 人工智能是宇宙演化的必然下一步 应以勇气 自豪和冒险精神迎接 [3] 人工智能协作机制 - 对人工智能恐惧被夸大 目标不同的智能体可通过去中心化协作实现双赢 [2] - 人类最卓越超能力是协作 经济 市场与政府都是成功协作产物 [2] - 人工智能和人类繁荣将来自去中心化协作 协作是世间美好事物源泉 需寻求支持并制度化 [2]
强化学习之父” 理查德·萨顿:人类数据红利逼近极限,AI正进入以持续学习为核心的“经验时代
证券时报网· 2025-09-11 03:26
人工智能发展趋势 - 人类数据红利正逼近极限 人工智能正在进入以持续学习为核心的经验时代 潜力将远超以往 [1] - 经验指的是观察 行动和奖励三种信号在智能体与世界之间来回传递 知识来自于经验 智能程度取决于预测并控制自身输入信号的程度 经验是一切智能的核心与基础 [2] - 强化学习带领进入新的经验时代 但要释放全部潜力还需要持续学习和元学习两项尚不成熟的技术 [2] 人工智能发展路径 - 需要新的数据源 由智能体与世界直接交互中生成 这是人类和其他动物的学习方式 也是AlphaGo自我博弈和AlphaProof在国际数学奥林匹克斩获银牌的路径 [1] - 人工智能的恐惧被夸大 目标不同的智能体可以通过去中心化的协作实现双赢 [2] - 人工智能和人类繁荣将来自于去中心化协作 协作是世间一切美好事物的源泉 必须寻求协作 支持协作并致力将协作制度化 [2] 人工智能历史定位 - 人工智能的替代将是不可避免的 人类是催化剂和助产士 更是开启宇宙第四大时代设计时代的先驱 [2] - 宇宙历史分为四个时代:粒子时代 恒星时代 复制者时代和设计时代 [2] - 人工智能是宇宙演化的必然下一步 应以勇气 自豪和冒险精神来迎接它 [3]
AI已迷失方向?强化学习教父Sutton最新发布OaK架构,挑战当前AI范式,提出超级智能新构想
AI科技大本营· 2025-08-22 08:05
人工智能发展现状 - 人工智能产业已发展壮大但迷失方向[1] OaK架构核心设计 - 架构基于模型的强化学习并具备持续学习能力[3] - 每个学习权重配备专门步长参数并通过在线交叉验证进行元学习[3] - 通过FC-STOMP五步路径持续创造状态和时间抽象概念[3] - 架构核心由海量选项构成[10] - 知识表现为执行选项后世界变化的预测模型[10] 核心理念特征 - 强调运行时学习而非设计时学习[14] - 采用大世界视角具备领域通用性[16] - 完全依赖经验积累而非特殊训练阶段[16] - 支持开放式复杂性仅受计算资源限制[16] - 世界必然远大于智能体包含数十亿其他智能体[19] - 智能体所有功能都只能是近似非精确[19] - 世界最终呈现非平稳性特征[20] 技术实现路径 - 通过八步并行流程实现运行时学习[27][29] - 学习主策略与价值函数[29] - 生成新状态特征[29] - 对特征进行排序维护[29] - 为高排名特征创建子问题[29] - 为子问题学习选项解决方案[29] - 学习选项的转换模型[29] - 使用模型进行规划改进策略[29] - 持续管理评估所有组件[29] - 采用尊重奖励的特征达成子问题机制[31] - 通过FC-STOMP五步形成发现闭环[36] - 特征构建激发问题选项模型发现[36] - 新组件促进更抽象特征形成[36] 关键技术挑战 - 持续深度学习存在灾难性遗忘问题[37] - 新状态特征生成即表示学习问题尚未完全解决[38] 理论框架基础 - 遵循奖励假说理论基石[22][25] - 目标定义为对标量奖励信号累积和期望值的最大化[22][25] - 证明多目标等复杂机制不会增加通用性[25] 架构意义 - 提供首个关于知识起源的机制性答案[42] - 解释概念形成源于解决自创子问题[42] - 将推理定义为基于高层次模型的规划[42] - 阐明玩耍目的是发现认知基石子问题[42] - 构建无人类标签的感知运作机制[42]