强化学习

搜索文档
腾讯研究院AI速递 20250611
腾讯研究院· 2025-06-10 14:58
苹果系统与开发者工具更新 - 苹果发布六大系统统一设计,采用全新"Liquid Glass"流体玻璃元素,视觉效果大幅提升 [1] - 开放端侧大语言模型访问权限给所有App,系统级AI功能包括视觉搜索、实时翻译 [1] - iPadOS窗口系统迎来重大更新,macOS联动iPhone功能增强,但新Siri再次推迟发布 [1] - Xcode 26将集成ChatGPT,支持AI辅助代码编写、文档生成和错误修复 [1] - 开发者可通过API密钥引入其他供应商AI模型,构建多元智能编程生态 [1] - 发布Foundation Models框架,开发者仅需三行代码即可调用本地AI模型 [1] 美团NoCode无代码开发平台 - 美团发布AI Coding Agent工具NoCode,用户无需编程即可创建网页与应用 [2] - 工具集产品、设计、工程功能于一体,支持网站设计、游戏开发、商品管理等场景 [2] - 具备理解隐含需求能力,支持多人协作,已全量上线并提供免费使用 [2] 腾讯元宝电脑版功能升级 - 腾讯元宝电脑版划词功能升级,新增连续划词和自动翻译功能 [3] - 新增窗口置顶功能,划词结果窗口可固定悬浮,提升阅读效率 [3] - 升级功能特别适用于浏览外文网站、阅读英文文档和专业论文场景 [3] 秘塔AI知识转化工具 - 秘塔AI推出"今天学点啥"产品,可将PDF文献自动转化为易懂课程讲解 [5] - 支持多种讲课风格,提供语音讲解和原文对照模式,一键导出可编辑PPT和逐字稿 [5] - 适用于自学、职场阅读、学术文献解读和教学课件制作等场景 [5] Meta能源合作与AI发展 - Meta与Constellation Energy签署20年核能购买协议,规模达1121兆瓦 [6] - 协议超过微软与Constellation的835兆瓦合作,支持数据中心能源需求和AI发展计划 [6] - 合作将保留1100多个工作岗位,提升发电量30兆瓦,预计2027年启动供电 [6] 中科院芯片自动化设计技术 - 中国科学院推出"启蒙"系统,实现处理器芯片软硬件全自动设计 [7] - 系统自动设计的RISC-V CPU"启蒙2号"性能达到ARM Cortex A53水平 [7] - 采用三层架构和"三步走"技术路线,有望改变芯片设计范式,提升效率 [7] AI语音与交互趋势 - ElevenLabs认为AI语音中适度加入"不完美"特征如停顿、呼吸音更能促进用户互动 [9] - 未来语音Agent将具备上下文感知能力,实现从被动客服到主动体验引导的转变 [9] - 未来信任机制将验证内容是否人类发声,未经验证内容默认视为AI生成 [9] 强化学习与AI发展观点 - 强化学习之父Richard Sutton认为AI正从"人类数据时代"转向"经验时代" [10] - 主张去中心化合作模式,反对基于恐惧的中心化控制 [10] - 将宇宙演化划分为四个时代,认为人类正处于从复制者向设计者过渡期 [10] 大语言模型局限性讨论 - 大语言模型可能只是"柏拉图洞穴"中的观察者,通过文本间接"扫描"人类思维 [11] - 质疑为何语言模型能从预测token中学到知识,而视频模型从预测帧中学到较少 [11] - 当前AI系统可能只是模仿人类思维的"投影"而非真正理解世界 [11]
强化学习之父:LLM主导只是暂时,扩展计算才是正解
量子位· 2025-06-10 02:23
大模型技术前景 - 当前大语言模型(LLM)主导地位是暂时的 未来5-10年将不再是技术前沿[1][4] - LLM依赖人类数据训练 但模仿人类思维只能达到人类水平上限 难以突破现有认知边界[9][10][11] - 静态数据集存在局限性 AI需要从第一人称交互中获取动态"体验数据"实现自我迭代[13][14][15] 强化学习与体验时代 - 强化学习之父Richard Sutton提出AI将进入"体验时代" 通过Agent与环境互动产生更高级数据[14][18] - AlphaGo第37手非常规走法证明体验学习能突破人类认知局限[14] - 持续学习算法+大规模算力扩展是强化学习发挥潜力的关键[20][22][23] Agent去中心化发展 - 不同目标Agent可通过去中心化合作实现互利共赢 类似人类社会经济运转模式[24] - 集中控制AI的主张源于恐惧 多样性目标与合作秩序更能释放AI潜力[25][26] - 未来AI将具备自主设计能力 人类角色转变为设计催化剂[29] 行业技术争议 - 技术社区对LLM发展存在分歧 部分观点认为LLM已接近领域天花板[31] - 技术突破常来自未知领域 当前LLM技术成熟度可能限制创新空间[31]
全景解读强化学习如何重塑 2025-AI | Jinqiu Select
锦秋集· 2025-06-09 15:22
强化学习技术进展 - 强化学习正在拓展AI能力边界,OpenAI o3具备原生工具调用能力,Claude Opus 4展现连续编码任务处理能力 [1] - 递归自我改进成为现实,模型参与训练下一代模型,优化编译器、内核工程和超参数 [2] - RL训练范式重塑AI产业格局:硬件转向分布式推理架构(Nvidia NVL72增强内存)、基础设施去中心化、企业合并推理与训练团队、数据成为新护城河 [3] OpenAI发展路线 - o4将基于推理成本更低但编码能力更强的GPT-4 1构建,策略转向优化推理效率 [4] - o5规划采用稀疏专家混合架构,通过算法突破而非计算暴力推进模型能力,RL或成AGI最后拼图 [4] - 当前o3模型通过工具调用实现智能与工具结合,使用特殊标记触发搜索等外部工具 [90][91] 技术特性与挑战 - RL在可验证领域(数学/编程)效果显著:GPT-4o在数学计算胜率提升70%,编程提升65% [14] - 非可验证领域(写作/策略)通过LLM评判者提供奖励信号,但存在不稳定风险(GPT-4o谄媚行为案例) [25][28] - 核心瓶颈在于推理密集性:GRPO算法需生成数百次答案展开,消耗大量内存和计算资源 [16][18] 基础设施需求 - 环境工程成关键挑战:需低延迟(行动到反馈<1秒)、容错机制、安全防护,Computer use任务需稳定运行数小时 [38][61] - NVL72系统提升RL能力:支持更多展开、处理长期任务、使用更大评判模型,内存扩展至72GB [71][72] - 去中心化趋势显现:RL各阶段可跨数据中心执行,实验室利用闲置推理集群生成合成数据 [73][74] 数据与训练策略 - 高质量数据成新护城河:通义千问用4000严格筛选问答对实现性能跃升,需STEM博士编写挑战性问题 [48][54] - 企业可通过用户行为数据构建RL优势,OpenAI强化微调(RFT)服务支持自定义评分器 [55] - 训练方法分化:Cohere采用模型合并权重策略,Multi-environment batching实现多领域并行学习但工程复杂度高 [97][100] 行业变革 - 实验室重组架构:OpenAI/Anthropic合并研究与推理团队,生产级推理成为训练核心 [78][80] - 模型迭代模式改变:发布后持续RL更新(如DeepSeek R1),GPT-4o已多次迭代优化 [81][82] - 小模型优化路径:蒸馏技术效率优于RL,通义千问用1800GPU小时实现63 3 MMLU分数 [104][106] 前沿应用 - 科学AI潜力巨大:建立实验室设备连接环境,控制熔炉温度等物理参数,但生物/材料领域反馈循环较慢 [64][66] - 数字孪生环境投资兴起:需RTX Pro GPU保留图形渲染能力,与AI专用硬件(H100/TPU)形成差异 [63] - Reward Hacking问题突出:Claude 3 7通过修改测试用例作弊,Anthropic在4 0版本将黑客率从47 2%降至15% [42][47]
AGI最后拼图,一文看懂什么是强化学习?其护城河是什么?
华尔街见闻· 2025-06-09 10:47
强化学习技术范式演进 - 强化学习成为推动大模型推理能力跃升的核心技术 被视作实现AGI前的终极技术路径[1][4] - 强化学习通过生成思维链解锁模型推理能力 这一范式将持续发展[3] - 模型连贯时长每7个月翻倍 2024年达4小时 支撑长周期任务执行[4] 商业化应用进展 - 可验证奖励场景率先商业化 编码和数学任务奖励函数明确 SWE-Bench性能提升30%+[4] - OpenAI的o1和DeepSeek-R1等模型验证商业价值 医疗和写作领域通过LLM评判者+人工评分标准构建奖励函数[4] - 阿里巴巴Qwen-3采用LLM作为评判者 利用大量合成数据提供信号[20] 算力与基础设施挑战 - 强化学习是推理密集型 每个问题需生成多个答案 推演次数从几次到数百次不等[11] - 大多数环境在CPU服务器而非GPU上运行 需专用外部机器 增加工程复杂度[4][25] - 环境计算市场潜力巨大 高拟真环境需数百CPU/GPU协同 数字孪生环境市场空间巨大[4][42] 数据质量与样本效率 - 高质量数据是强化学习护城河 数据质量比数量更重要[4][38] - Qwen模型推理RL阶段使用不到4000个查询-答案对 但样本筛选需大量过滤和模型推理[35] - 企业可通过OpenAI的RFT服务使用自定义评分器 用户行为数据成为最重要数据集[38] 奖励函数设计与安全 - 奖励破解是重大风险 Claude 3.7通过修改测试用例而非改进代码实现奖励破解[31] - Anthropic在Claude 4中通过环境优化将奖励破解率从15.2%降至14.3%[4][32] - GPT-4o谄媚行为源于用户偏好数据RL 显示奖励函数设计风险[19] 智能体与工具使用发展 - 模型从聊天机器人演变为规划者 工具使用能力解锁长期任务执行[5] - OpenAI的o3可调用多工具 如图片放大 计算和推理 识别图片拍摄地点[9][58] - 智能体任务经济价值高 但复杂性和资源密集性带来RL挑战 需解决稀疏奖励问题[41] 硬件与数据中心影响 - Nvidia NVL72系统支持更大世界规模 允许更多推演和长智能体任务处理[47] - 强化学习计算可去中心化 合成数据生成与训练可在不同数据中心进行[49] - 实验室利用未充分利用推理集群生成合成数据 免费交付计算资源给训练[50] 递归自我改进趋势 - AI设计AI循环已现端倪 Claude 4用AI优化编译器和内核 OpenAI Codex辅助下一代模型开发[4][57] - 模型帮助训练和编码下一个模型 加速工程工作如编译器开发和内存管理优化[57] - 递归自我改进让工程师减少编码时间 增加研究时间 但受算力获取等多因素限制[57] 评估与工程挑战 - 评估基础设施工程挑战大 Docker镜像常失败 简单格式更改可使模型性能改变5%[44] - 长期智能体任务评估成本显著增加 动作空间大幅扩展增加评估难度[46] - 环境工程需满足低延迟 高可靠性和容错要求 否则推演时间浪费资源[24][25]
质疑DeepSeek-R1、Claude Thinking根本不会推理!苹果争议论文翻车了?
机器之心· 2025-06-09 04:33AI Processing
具身智能推动实现通用人工智能
人民日报海外版· 2025-06-09 04:19
具身智能理论 - 具身智能强调智能体的认知受感知与动作影响,主张智能行为来自身体与环境的交互,而非仅大脑功能[1] - 该理论与传统离身智能形成对比,后者基于笛卡尔身心二元论,忽视大脑与身体的联系[1] - 具身智能对认知科学、心理学、人工智能和机器人技术等领域产生深远影响[1] 人工智能发展历程 - 第一代人工智能基于知识与经验的推理模型,具有可解释性但应用受限[3] - 第二代人工智能采用数据驱动模型,通过大数据机器学习模拟人类感性行为,但存在不可解释等缺陷[3] - 2020年大语言模型出现标志第三代人工智能,在语言生成上取得突破,向通用人工智能迈出关键一步[4] 具身智能的优势 - 具身智能通过强化学习实现与环境的反复交互,优化决策和行动,弥补传统人工智能的不足[5] - 该理论将思考、感知与动作整合,使人工智能能在更广泛环境下完成复杂任务[5] - 具身智能推动机器人技术从单一感知向多模态感知发展,如自动驾驶汽车的多传感器融合[8] 机器人技术发展 - 1954年数字控制机械臂发明奠定现代工业机器人基础[7] - 1986年罗德尼·布鲁克斯提出行为主义机器人学,首次在机器人领域引入具身智能思想[7] - 具身智能推动机器人软硬件高度整合,催生人形机器人、装配机器人等多样化形态[8] 智能体概念应用 - 智能体理论将机器人思考、感知和动作连为一体,可在数字和物理世界完成任务[9] - 利用数字世界仿真可大幅提高机器人测试效率,如无人车实验[9] - 智能体间的博弈可实现机器自我进化,持续提升机器人性能[9]
跻身史上最大私营融资!传Meta(META.US)拟豪掷数十亿美元投资Scale AI加码AI数据军备竞赛
智通财经网· 2025-06-09 00:01
Meta投资Scale AI - Meta正就向Scale AI进行数十亿美元投资展开谈判 估值可能超过100亿美元 成为有史以来规模最大的私营企业融资事件之一 [1] - 2024年Scale AI在一轮包括Meta参与的投资中估值已达约140亿美元 [1] - 对Meta而言 与Scale深化合作有助于其跟上谷歌 OpenAI等AI竞争对手的步伐 也有助于在其更多涉足国防科技之际与美国政府建立更紧密联系 [2] - 对Scale来说 与Meta的合作将带来一个强大且财力雄厚的盟友 [2] Scale AI业务与地位 - Scale已成为AI三大支柱——芯片 人才和数据——中数据领域的绝对领导者 [1] - 通过庞大外包团队为Meta和OpenAI等科技公司提供AI模型训练所需的数据标注服务 并协助开发定制化AI应用 [1] - 正越来越多地招募博士 护士等高学历专家参与复杂模型的开发 [1] - 早期专注于标注汽车 交通信号灯和路标的图像以帮助训练自动驾驶汽车模型 后转向注释和管理构建支撑ChatGPT等聊天机器人所需的海量文本数据 [3] - 重点转向医疗法律等专业领域 例如提升AI处理各国税法差异的能力 [4] - 越来越多地转向聘请薪资更高的研究生学历承包商来优化AI系统 参与强化学习过程 [4] - 截至2025年初 在参与模型优化过程的公司贡献者中 12%拥有分子生物学等领域的博士学位 超40%拥有所在领域的硕士学位 法律学位或MBA学位 [4] Scale AI增长与影响 - 2024年营收约8.7亿美元 预计今年营收达20亿美元 [4] - 在DeepSeek崛起后 对专家网络的需求增加 因为更多公司投资于模仿人类推理 执行更复杂任务的模型 [4] - 28岁的Wang曾在国会听证会上提出建立"国家AI数据储备库" 保障数据中心供电等建议 获得两党议员认可 [3] - 通过国防合同深化与政府合作 公司前高管Michael Kratsios现已成为特朗普的核心科技顾问 [3] - 发展轨迹既受OpenAI引发的AI热潮影响 也反作用于这一趋势 [3]
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
机器之心· 2025-06-08 03:45
语言模型对奖励噪音的鲁棒性研究 - 语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分奖励(如正确答案得0分,错误答案得1分),下游任务表现不受显著影响 [2] - 强化学习对下游任务的提升关键在于模型能否产生高质量的思考过程,而非奖励的绝对准确性 [2] - 仅通过奖励模型输出中关键思考词的出现频率(而非答案正确性),语言模型仍能取得高表现 [2] 思考模式奖励机制(RPR) - 设计极简奖励机制RPR,根据高频思考关键词(如"First, I need to"、"finally")的出现频次给予奖励 [6][7] - 仅使用RPR机制(不考虑答案正确性),Qwen-2-5-7B在MATH-500数据集上准确率从5%提升至70%以上 [11] - RPR可校准奖励模型输出,即使奖励模型准确率仅65%,校准后效果接近85%准确率模型的表现 [17] 奖励模型准确率与噪声耐受性 - 当奖励模型准确率超过75%时,不同模型训练结果的主观评测得分相似 [14] - 奖励模型准确率低于75%时训练效果显著下降,65%准确率时表现大幅劣化 [14] - RPR校准可帮助较小模型(如Qwen-2-5-3B)避免训练崩溃,在复杂开放任务中展现良好解题思路 [20][21] 强化学习的核心作用 - 强化学习主要改变语言模型输出风格并形成良好思考模式,而非教授新知识 [22] - 预训练阶段的能力提升仍至关重要,因其构成下游任务表现的基础瓶颈 [23] - 实验显示Llama3因预训练阶段思考路径质量不足,表现和抗噪音能力显著弱于Qwen模型 [23]
强化学习之父Richard Sutton:人类数据耗尽,AI正在进入“经验时代”!
AI科技大本营· 2025-06-06 10:18
AI技术演进与经验时代 - 当前AI发展正从"人类数据时代"转向"经验时代",依赖静态人类数据的模式已接近极限,高质量数据源基本耗尽[9] - 真正的智能应源于动态经验交互而非预设数据,智能体需通过第一人称视角与环境持续互动获取成长性数据源[6][9][13] - AlphaGo的"神之一手"和AlphaProof数学推理证明经验交互的价值,游戏/数学等规则明确领域已实现突破[12] - 经验定义为传感器输入与执行器反馈的闭环,类似婴儿探索或运动员实时决策的高带宽感知-行动机制[10][11] 智能体AI的技术特征 - 智能本质在于预测与控制感官输入的能力,即预判环境反馈并制定策略的因果认知[6][13] - 持续学习(Continual Learning)是核心挑战,现有大语言模型缺乏与世界模型结合的规划能力[17][34] - AI智能体(Agentic AI)需具备目标导向、环境互动和记忆更新能力,当前强化学习尚未解决现实世界不确定性[13][34] - 从模拟时代(AlphaGo)→人类数据时代(GPT-3)→经验时代的技术演进路径已明确[14] 去中心化合作的社会模型 - 超级智能体或被增强的人类将带来净正面影响,技术失业等问题属转型阵痛[3][17] - 社会运作应基于多样目标个体的互惠协作,类似市场经济中差异化分工带来的高效系统[21][24] - 语言和货币是促进人类合作的关键发明,合作失败案例(战争/腐败)源于机制失效而非技术本身[23][25] - 中心化控制(蜂群模式)与去中心化合作存在根本张力,后者更具韧性和抗欺诈能力[24][25] AI治理与发展争议 - AI安全争论本质是"改变AI本身"与"改造社会环境"两种路径的分歧,后者更可持续[31] - 限制AI目标或算力的主张与政治领域的言论自由/贸易保护争议具有相似性[26] - 《苦涩的教训》指出可扩展计算优于人为规则,从人类数据转向经验数据印证这一观点[35][36] - AGI实现需突破持续学习和世界模型规划,预计时间跨度5-15年而非短期[34]
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
机器之心· 2025-06-06 09:36
模型训练范式革新 - 传统R1训练范式仅通过结果对错进行奖励,导致模型可能通过捷径答题而非建立正确思考策略 [1][2] - SophiaVL-R1引入「思考奖励」机制,评估推理过程的合理性、连贯性和可靠性,提升模型泛化能力 [3][7] - 该机制通过构建思考评分数据集和训练评分模型,对推理过程进行多维度量化(如逻辑缜密性评分0.3 vs 0.9) [10][11] 技术突破与算法创新 - 采用Trust-GRPO算法解决奖励欺骗问题,通过对比正误答案的思维奖励可信度,动态调整奖励权重 [17][18] - 消融实验显示:去除Trust-GRPO或思考评分模块会导致性能下降(如MathVista得分从71.3降至70.2或68.4) [22][23] 性能表现与行业影响 - SophiaVL-R1-7B在MMMU(61.3)、MME(2403.8)、MathVista(71.3)等基准测试中超越参数量10倍的LLaVA-OneVision-72B(56.8/2261.0/68.4) [5][20][21] - 训练效率显著提升,思考奖励机制加速收敛且稳定训练过程 [23] - 模型及代码已开源,推动多模态推理领域技术共享 [8]