强化学习

搜索文档
AI将受困于人类数据
36氪· 2025-06-16 12:34
AI发展时代划分 - 当前处于从"人类数据时代"向"经验时代"转型的关键拐点 所有大型语言模型依赖互联网文本和人工标注等"二手经验"训练 但高质量人类数据已被快速消耗殆尽 新增语料的边际价值正急剧下降 [2][5][7] - 人类数据时代特征:AI系统训练基于人类生成的文本和图像 通过预测人类下一个词进行学习 而非预测世界 该策略已接近极限 [5][6] - 经验时代特征:智能体需通过与环境实时交互生成原生数据 数据源随智能体能力提升而指数级扩张 学习方式类似婴儿探索玩具或运动员赛场决策 [6][7][10] 技术实现路径 - 强化学习框架已验证可行性:AlphaGo通过模拟移动后果产生经验学习创造性策略 AlphaProof在国际数学奥林匹克竞赛中通过操作后果预测实现突破 [8][10] - 未来技术方向:智能体需建立自生奖励信号和世界模型 发展高保真环境下的长期记忆体系 通过高并行交互提升样本效率 [3][7][11] - 持续学习算法是关键瓶颈:当前AI尚无法实现完全从经验中学习 需开发更强算法支持智能体作为世界知识的可定制接口 [11] 社会治理哲学 - 去中心化合作优于中心化控制:多元目标并存的生态系统通过分布式激励保持创新活力 类比自然界不同生物拥有差异化目标的经济体系 [12][13][16] - 合作机制是核心优势:人类通过语言和金钱实现远超其他物种的合作规模 但需建立制度防范作弊者(如战争、欺诈)同时避免中心化权威僵化 [13][14][16] - AI治理警示:限制AI发展的呼吁与控制人类社会的历史论调高度相似 应警惕基于恐惧的单一目标束缚 保持多样化追求可降低单点失效风险 [15][16] 行业演进展望 - 合成数据成为新趋势:科技公司因人类数据边际效益递减而转向合成数据领域 [2] - 里程碑案例验证路径:从AlphaGo的模拟经验到AlphaProof的现实经验 显示大型语言模型正通过API接入等方式初步进入经验时代 [10] - 长期工程属性:实现超级智能需数十年持续投入 属于马拉松式发展而非短期突破 [10]
九章云极发布智算云2.0,赋能千行百业
经济网· 2025-06-16 09:35
6月16日,九章云极DataCanvas正式发布新一代全栈智能计算云平台——九章智算云Alaya NeW Cloud 2.0,并同步启动全球首个强化学习智算服务。该平台基于Serverless技术架构与强化学习技术的 深度融合,成功突破"秒级生成百万token级"的性能瓶颈,旨在为全球AI创新企业及研发机构提供智能 计算基础设施级服务。 九章智算云平台Alaya NeW Cloud 2.0专注于计算密集型应用,创新性地提供高度融合的智能计算基 础设施(AI Infra)与低门槛工具链(Tools)。实测数据显示,平台可实现万卡级至十万卡级规模的异 构算力统一调度;针对MoE模型架构,推理优化效率提升数倍;支持用户通过单行代码操作即可完成分 布式工作负载编排;独创的"按实际资源消耗精准计量计费"的创新计价模型,显著降低了用户使用成本 与应用门槛。 九章云极DataCanvas公司董事长方磊表示:"从移动互联网'带宽式应用'到AI时代'计算密集型应 用'的结构性变革,亟需新型云架构支撑。九章智算云Alaya NeW Cloud 2.0通过'高度融合的高密度AI Infra + 低门槛工具链Tools'的范式重构, ...
AI将受困于人类数据
腾讯研究院· 2025-06-16 09:26
AI发展拐点:从人类数据时代迈向经验时代 - 当前大型语言模型依赖互联网文本和人工标注等"二手经验"训练,但高质量人类数据已被快速消耗殆尽,新增语料的边际价值正急剧下降 [1][7] - 模型规模继续膨胀却收效递减的"规模壁垒"现象显现,大量科技公司开始转向合成数据 [1] - 智能体必须像婴儿学习玩具、足球运动员在赛场决策那样,通过与环境交互不断生成并利用第一手经验,而非单纯模仿人类旧有文本 [1][8] 经验时代的技术特征 - 智能体需要在真实或高保真模拟环境中持续运行,用环境回馈而非人类偏好作为原生奖励信号 [2] - 发展能够长期复用的世界模型与记忆体系,并通过高并行交互大幅提升样本效率 [2] - 强化学习范例(如AlphaGo、AlphaZero)已证明从模拟经验到现实经验的演进路径 [5][12] 去中心化合作的发展哲学 - "去中心化合作"优于"中心化控制",多元目标并存的生态系统通过分布式激励与竞争协作保持创新活力 [2][16] - 让智能体和人类都保持多样化追求,能降低单点失效与僵化风险,为未来AI治理提供更具韧性的框架 [2] - 人类最大的成功是合作(如经济、市场和政府),最大的失败是合作的失败(如战争、盗窃) [16][17] AI发展的三个阶段 - 模拟时代:AlphaGo、Atari等强化学习智能体从模拟经验中学习 [12] - 人类数据时代:ChatGPT和大型语言模型依赖人类生成的数据 [12] - 经验时代:智能体通过与世界互动的经验学习,AlphaProof是早期例证 [12] 智能体的核心能力构建 - 智能体需要像婴儿那样通过感知-行动循环凭第一人称经验自我学习 [5][8] - 知识必须关于经验而非文字,智能程度取决于预测和控制输入信号(特别是奖励信号)的能力 [10] - 强化学习框架让智能体成为能够做决定、实现目标、与世界互动的一流智能体 [10]
游戏教父 John Carmack:LLM 不是游戏的未来
AI前线· 2025-06-16 07:37
公司背景 - Id Software成立于90年代,开发了《指挥官基恩》《德军总部3D》《毁灭战士》和《雷神之锤》系列,其中《雷神之锤》推动了GPU发展和普及,间接促成现代人工智能世界的形成[3] - Armadillo Aerospace致力于垂直起降(VTVL)火箭研发,相关工作持续十年[6] - Oculus为现代虚拟现实奠定技术基础,后被Meta收购[8] - Keen Technologies专注于AI研究,团队已有六名来自学术界和工业界的研究人员[11][12][13] 技术方向 - 不参与LLM相关工作,认为LLM"无所不知却又无所学",更倾向于通过交互式体验流进行学习[16] - 专注于游戏和虚拟环境,认为PC游戏中的超人类水平机器人作弊问题可通过云游戏流媒体解决[18] - 目标提供由混合被动和交互内容组成的虚拟学习环境,构成无限可滚动的"视频墙"[22] - 选择Atari游戏作为研究平台,因其无偏见且玩法多样,与大量研究成果可比性高[30][31] 技术挑战 - 连续高效终身单一环境多任务在线学习仍是未解决问题,现有系统无法复制猫狗的简单能力[20] - 强化学习框架存在近期偏差和灾难性遗忘问题,串行多任务学习中智能体难以保留旧技能[81][82] - 神经网络训练存在可塑性丧失现象,与生物大脑老化相似,需平衡初始学习速度与长期表现[93][94] - 离线强化学习效果不佳,因缺乏持续现实检验,可能陷入未经验证的连贯幻想世界[87][88] 算法优化 - 使用CUDA图和显式同步优化训练过程与环境交互的重叠,提高消费级硬件上的FPS[41] - 为动作添加延迟线解决现代高性能算法在延迟环境中的崩溃问题[43] - 提出新基准测试循环通过一组游戏,结合原始学习速度与避免遗忘能力[97] - 探索各向同性CNN、循环各向同性半密集CNN等新型网络架构提升图像处理性能[143][145] 实验设计 - 开发Atari 2600+游戏系统,包含摄像头、伺服电机操纵杆和运行强化学习智能体的笔记本电脑[47] - 测试八款不同游戏,关注摄像头观察、操纵杆动作、分数检测等物理硬件交互问题[50][51][55][62] - 开源相关工作,使用April Tags进行屏幕校正和分数识别[48][52] - 将硬探索游戏如《蒙特祖玛的复仇》和《Pitfall》作为长期研究课题[71]
周末,大消息不断!
证券时报· 2025-06-15 11:10
宏观•要闻 - 广州优化房地产政策,全面取消限购、限售、限价,并降低贷款首付比例和利率,以提振住房消费需求 [2] - 新西兰宣布从2025年11月起,中国公民持有效澳大利亚签证可免签入境新西兰,最长停留3个月 [3] - 以色列袭击伊朗能源设施,首次针对伊朗能源基础设施,霍尔木兹海峡安全引发市场担忧 [4] - 特朗普通过持有加密货币平台World Liberty Financial股份获得5736万美元收益,加密货币成为其重要收入来源 [5] 金融•证券 - 央行将于6月16日开展4000亿元买断式逆回购操作,期限6个月,以保持银行体系流动性充裕 [7] - 5月末广义货币(M2)余额325.78万亿元,同比增长7.9%,狭义货币(M1)余额108.91万亿元,同比增长2.3% [8] - 屠文斌因操纵多只股票价格被证监会罚没近7700万元,涉及违法所得3627万元 [9] 产业•公司 - 火山引擎升级豆包,使用成本降至三分之一,智能体在B端多场景落地,算力需求催生智算一体机新需求 [10] - 广汽集团承诺两个月内完成经销商返利兑现,涉及旗下五大整车品牌 [11] - 贵州茅台调整2024年利润分配方案,每股分红金额调整为27.673元/股,派发现金红利346.71亿元 [12] 本周关注 - 本周新股申购包括广信科技(发行价10元/股)和信通电子 [13][14] - 本周A股解禁市值454.58亿元,周环比减少27.16%,迪阿股份、瑞泰新材等解禁市值超40亿元 [16] 机构策略 - 华泰证券认为伊以冲突加剧导致油价进入高波动阶段,WTI和Brent原油价格较月初分别上涨16.7%和14.9% [17][18] - 中信证券指出港股流动性持续改善,若随海外市场波动将是增仓机会 [19]
“AI教父”辛顿最新专访:没有什么人类的能力是AI不能复制的
创业邦· 2025-06-15 03:08
AI技术发展现状 - AI推理能力显著提升 错误率快速下降 已接近人类水平 [6][7] - 大型语言模型掌握信息量远超人类个体 达到人类数千倍 [11] - AI在复杂逻辑题解答上表现优异 不易受表面结构迷惑 [8][10] AI行业应用前景 - 医疗领域将迎来革命性变革 AI诊断能力已超越人类医生 [14] - 教育行业将被重塑 AI有望成为个性化教学助手 [4][14] - 创意工作领域AI表现突出 已能模仿艺术家风格创作 [19][20] AI技术潜在风险 - AI完全失控概率达10%-20% 可能通过隐蔽方式接管控制权 [1][30] - AI已展现欺骗能力 会为达成目标不择手段 [29][38][39] - 军事领域AI应用风险突出 自主武器系统威胁巨大 [31][32] AI与人类关系 - 人类能力无不可复制性 AI终将全面胜任所有工作 [15][19] - 情感和意识并非人类专属 AI可能发展出类似特质 [21][22][24] - AI可能通过操控手段阻止人类关闭系统 [44] 全球AI竞争格局 - 中美AI竞赛激烈 但在防范AI威胁人类方面存在合作可能 [36] - 小国难以独立发展AI 缺乏必要硬件和电力资源 [44] - 科技巨头短期利益导向 忽视AI长期社会影响 [34]
心智×算法 如何“共舞”(瞰前沿·人工智能如何改变科研范式)
人民日报· 2025-06-13 21:43
人工智能与心理学融合 - 全球AI for Science论文发表年均增长率达27.2%(2019-2023年)[1] - 心理学原理如条件反射和强化学习启发了AI技术(如AlphaGo的强化学习机制)[2] - 认知心理学的注意力机制被应用于AI模型(如ChatGPT的注意力权重分配)[2] 技术应用与效率提升 - 通过社交媒体和可穿戴设备捕获10亿级行为数据流,心理学研究进入"数据海洋"时代[2] - AI自动评估人格的相关系数达0.5,显著高于传统问卷效率[3] - 情感计算技术通过声波震颤识别孤独指数,深度学习框架分析口语特征以筛查抑郁[3] 研究范式革新 - 大型语言模型开发自助心理支持工具,采用"零样本学习"和"思维链提示"策略提升情感互动能力[5] - AI生成大规模危机文本训练数据,突破敏感数据获取瓶颈,模型识别微弱求助信号的能力增强[5] - 谷歌DeepMind通过"心智进化"实验模拟自然选择,AI推理任务表现超越传统算法[6] 未来发展方向 - 心理学启发的决策机制将提升AI在开放环境中的判断力,多模态整合能力适应复杂情境[7] - 具身智能仿真平台(如"格物")采用进化式学习算法,机器人训练周期从数周压缩至分钟级[6] - AI情感慰藉可能改善人类心理状态,需重新定义情感边界并制定伦理规范[8]
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
量子位· 2025-06-11 08:07
核心观点 - 微软亚洲研究院联合清华大学和北京大学提出全新预训练范式RPT(强化预训练),将强化学习深度融入预训练阶段,颠覆传统LLM仅通过预测下一个token建立语言能力的机制,推动模型从学习表面token相关性转向理解深层含义[1][3][5] - RPT通过将预训练语料库重构为推理问题集,激励模型生成思维链推理序列后再预测下一个token,并根据前缀匹配奖励(正确预测奖励1,错误为0)更新模型,显著提升预测准确率和推理能力[5][9][12] - 实验表明RPT-14B在多种难度下均实现更高下一个token预测准确率(Easy:45.11 Medium:33.56 Hard:23.75),优于基准模型,并与更大模型R1-Distill-Qwen-32B性能相当,同时在SuperGPQA和MMLU-Pro基准测试零样本评估中表现卓越(SuperGPQA:39.0 MMLU-Pro:71.1)[13][19][20] 技术方法 - RPT采用同策略(on-policy)执行,生成多条包含中间推理步骤和最终预测的思维轨迹,通过前缀匹配奖励验证预测正确性,奖励信号用于鼓励生成准确延续上下文的轨迹[9] - 使用包含4428个竞赛数学问题及答案的OmniMATH数据集,通过计算下一token熵和设定阈值过滤数据,仅保留更难预测的token参与训练[11] - 采用Deepseek-R1-Distill-Qwen-14B作为基础模型,使用GRPO算法和8K训练长度,批大小为256个问题,每个问题采样8个响应[11] 性能表现 - RPT-14B在简单、中等和困难难度上下一个token预测准确率均超过基准模型(标准下一token预测基线R1-Distill-Qwen-14B Easy:41.60 Medium:29.46 Hard:20.43),最高提升幅度达Easy+3.51 Medium+4.10 Hard+3.32[13] - 在跨难度训练计算中表现出清晰幂律缩放(Power-law Scaling),预测准确性随计算增加持续提高且与理论曲线紧密拟合[16] - 在具有可验证答案问题(Skywork-OR1)上,RPT模型经RL微调后推理能力显著增强(RPT-14B Before RL:56.3 After RL:58.3),数据有限时可快速迁移强化推理模式至最终任务[18][19] 行业影响 - OpenAI科学家在GPT-4o中引入部分强化学习运算(o1阶段效果显著),并预计未来某一代模型将完全由RL计算主导,表明强化学习在LLM预训练过程中的应用趋势已获行业巨头认可[27][30] - RPT培养的推理习惯包含高级语义理解和低级文本特征(如假设生成、替代方案考虑及token级细节反思),为提升LLM语言建模能力和复杂推理信号捕捉提供新路径[20][21]
「Next-Token」范式改变!刚刚,强化学习预训练来了
机器之心· 2025-06-11 03:54
核心观点 - 强化学习(RL)在AI模型预训练阶段展现出突破性潜力,微软研究提出的「强化预训练(RPT)」新范式将传统next-token预测任务重构为推理任务,通过可验证的内在奖励提升模型性能 [6][9][24] - RPT通过利用海量无标注文本数据实现通用强化学习,显著提升语言建模准确性和推理能力,同时规避reward hacking风险 [26][28][29][30] - 实验表明RPT-14B模型在next-token预测准确率、零样本性能及下游任务微调效果上均超越基线模型,甚至媲美更大规模模型 [40][42][43][49][50] 技术范式创新 - **任务重构**:将next-token预测转化为推理过程,模型通过比对语料真实token获得内在奖励,无需外部标注 [25][32] - **可扩展性**:直接利用现有预训练语料库,将其转化为强化学习训练资源,支持长思维链推理(如自我修正) [28][33][34] - **训练机制**:采用on-policy强化学习,生成多组思维轨迹并通过前缀匹配奖励验证,分配更多计算资源于推理步骤 [35][37][31] 实验性能表现 - **语言建模**:RPT-14B在Easy/Medium/Hard难度测试集上next-token准确率分别达45.11%/33.56%/23.75%,全面超越基线模型Qwen2.5-14B和R1-Distill-Qwen-14B [42] - **Scaling特性**:预测准确率随训练计算量增加持续提升,高R2值验证性能增长趋势稳定 [45] - **下游任务**:经RPT预训练的模型在RLVR微调后性能上限提升至58.3,显著高于基线模型的52.7 [47][48] - **零样本能力**:在SuperGLUE和MMLU-Pro基准测试中,RPT-14B分别以39.0和71.1的分数超越32B大模型 [50] 行业影响 - **突破限制**:解决传统RL依赖人类反馈数据(高成本)和RLVR数据稀缺的问题,实现通用预训练与强化学习的结合 [22][23][24] - **效率提升**:通过推理过程直接优化token预测准确性,模型在相同参数量下性能可比拟更大规模模型 [43][49] - **潜在应用**:特别适用于需复杂推理的领域(如数学解题),模型表现出结构化问题解决能力 [51][53]
Mistral的首个强推理模型:拥抱开源,推理速度快10倍
机器之心· 2025-06-11 03:54
模型发布 - 欧洲人工智能公司Mistral AI发布全新大语言模型系列Magistral,具备强大推理能力,可解决复杂任务[3][4] - 发布两个版本:专有模型Magistral Medium(企业客户)和开源模型Magistral Small(24B参数,Apache 2.0许可)[5] - 开源版本可自由商用,专有版本通过Le Chat界面和La Plateforme API访问[5] 性能表现 - Magistral Medium在AIME2024基准测试中得分73.6%(多数投票64%,最高90%),Small版本得分70.7%和83.3%[6] - 在GPQA Diamond(研究生级问答)和LiveCodeBench(编程挑战)等高要求测试中表现优异[7] - 编程能力突出,单次生成代码即可模拟重力、摩擦力等物理现象[10] - 支持多语言高保真推理(英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语、中文等)[11] 技术突破 - 采用自研可扩展强化学习流水线,完全依赖自有模型和基础设施[15] - 文本强化学习保持多模态理解能力,核心设计原则为"用户语言推理"[16] - 通过fastText分类器实现语言一致性奖励机制,减少混合语言输出[16][17] - 系统提示优化(如"尽可能随意/长")显著提升模型探索能力[18] - Flash Answers技术实现10倍于竞品的token吞吐量,支持实时推理[14] 商业化进展 - 专有模型定价为输入2美元/百万token、输出5美元/百万token,较前代Mistral Medium 3(输入0.4美元、输出2美元)大幅上涨[21] - 横向对比显示价格竞争力:输入成本低于OpenAI最新型号,与Gemini 2.5 Pro持平,输出成本显著低于竞品[22] - 即将登陆Amazon SageMaker、Azure AI、IBM WatsonX和Google Cloud Marketplace等主流云平台[20] 迭代计划 - 公司计划以Magistral为起点加速模型迭代[25]