强化学习

搜索文档
腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」
机器之心· 2025-09-17 09:37
并行思维技术突破 - 腾讯AI Lab等机构首创Parallel-R1框架 通过强化学习实现大模型并行思维能力 解决监督微调方法的泛化难题[2][9] - 框架采用渐进式课程设计 从简单数学题(GSM8K)生成并行数据成功率83.7% 复杂难题(DAPO)成功率0.0%[10][12] - 交替式奖励策略平衡准确性与多样性 使并行思维使用率达63.0% 同时在AIME测试中取得最佳性能[13][14] 性能提升表现 - 在AIME25测试中实现42.9%性能飞跃 AIME24准确率提升至42.2% AMC23达91.5%[17][26] - 平均准确率提升8.4% MATH基准测试达84.5% 显著超越单一思维模型[2][17] - 两阶段训练策略使模型在减少并行格式依赖后 准确率仍持续攀升至25.6%[26][28] 技术实现机制 - 渐进式课程分两阶段:先通过SFT学习并行格式语法 再通过RL泛化到复杂任务[19] - 奖励系统设计:80%时间采用准确率奖励 20%时间采用分层奖励(并行正确+1.2分 非并行正确+1.0分)[19] - 模型思维策略动态演化:从早期探索阶段的多路径并行 转变为后期验证阶段的答案复核[18][20][22] 应用价值拓展 - 并行思维作为临时训练脚手架 可帮助模型探索更优能力区间 即使后续停止使用仍保持性能增益[24][26] - 框架突破人工合成数据依赖 避免复杂数据管道构建需求 提升方法可扩展性[7][10] - 技术适用于大模型、强化学习、AI系统架构等方向 具备规模化潜力与长期价值[39][47]
AI革命下一站:Anthropic与OpenAI斥巨资打造“虚拟员工”
36氪· 2025-09-17 05:11
核心观点 - Anthropic和OpenAI正开发能替代人类执行复杂工作的AI同事 通过模拟企业软件训练模型 使其像人类员工一样理解和操作真实工作流程 [1] - 该训练方法采用模拟办公沉浸式教学 聘请各行业专家担任职业导师 手把手教授模型软件操作技巧 [2] - 训练成本高昂 Anthropic计划明年投入10亿美元建设AI训练健身房 OpenAI预计今年数据相关支出达10亿美元 2030年将增至80亿美元 [2] - 专家时薪持续上涨 目前20%专家时薪超90美元 10%突破120美元 预计18个月内顶级专家时薪将达150-250美元 [3] - 成功后将突破传统训练技术瓶颈 可能开辟销售AI智能体或开发更强大企业级应用等新商业模式 [3] 训练方法 - 采用强化学习环境模拟真实办公场景 将复杂任务拆分为多个简单步骤并验证完成正确性 [6][7][8] - 以销售任务为例 考核标准包括按最后联系时间筛选客户数据库 发送包含Calendly会议链接的邮件 将潜在客户状态更新为重新接洽等 [7][8] - 通过人类专家示范生成正确案例 筛选模型计算结果与人类一致的案例进行集中训练 快速低成本生成大量训练样本 [11] 基础设施投入 - Anthropic目前将不到10%的后训练预算用于强化学习环境 但由于初期效果显著 明年将大幅提高投入 [8] - 图灵公司已建成超1000个强化学习模拟环境 覆盖从Airbnb到Excel等各类应用场景 每个模拟环境配备100-500个定制任务示例 [9] - Scale、Surge、Mercor和Invisible Technologies等竞争对手纷纷推出类似服务 配备行业专家设计训练任务 [9] 行业影响 - OpenAI高管预测整个经济体未来可能变成巨大的强化学习机器 AI通过记录各领域专业人士日常工作来学习训练 [12] - AI开发商持续用精心筛选的高难度问答训练模型 如顶级编程竞赛题或博士水平生物学问题 用于强化学习特定领域新技能 [9] - 数据标注公司招聘标准升级 从硕博在读生转变为拥有多年经验的职场精英 包括NASA数据科学家、能源部化学家、放射科医师等 [11]
速递|OpenAI和Anthropic的新战场:训练AI操作企业软件,成本年飙80亿美元
Z Potentials· 2025-09-17 03:34
AI模型企业应用训练 - Anthropic和OpenAI等公司正在训练大型语言模型学习使用Salesforce、Zendesk、Cerner等企业级软件工具,以处理白领工作者的复杂任务[1][2] - 训练方法采用模拟应用程序环境(强化学习环境)和领域专家示范操作,与传统AI训练模式存在显著差异[2] 资金投入与成本结构 - Anthropic计划未来一年投资10亿美元创建企业应用克隆体(强化学习环境)[2] - OpenAI预计2030年数据相关成本(含人类专家费用和训练场建设)将达80亿美元,较2024年的10亿美元增长700%[3] - 人类专家时薪持续攀升:Labelbox公司约20%专家时薪超90美元,近10%超120美元,预计未来18个月将涨至150-250美元[6][7] 技术实施与验证方法 - 图灵公司将任务分解为多步骤并制定评估标准,例如验证AI是否按日期筛选数据库、发送带Calendly链接的邮件、更新客户状态等[4][6] - 通过让AI模型重复执行任务(如DCF分析数十次),筛选与人类专家结果一致的案例用于训练[9] 商业化应用前景 - 成功训练后可销售能自动操作企业应用的"虚拟协作者"智能体,或开发新版企业软件,开辟新盈利渠道[3][5] - 强化学习环境市场规模扩大:图灵公司已构建1000多个模拟环境(含Airbnb、Excel等),Scale、Surge等竞争对手纷纷进入该领域[8] 行业资源与人才需求 - AI公司聘请NASA数据科学家、能源部化学家、放射科医师等高端专业人士示范任务,取代早期硕士/博士学生[9] - OpenAI高管预测"整个经济"可能演变为强化学习训练场,通过记录各领域专业人士日常工作方式训练AI[10] 当前进展与规划 - Anthropic目前将不到10%的训练后优化预算用于强化学习环境,但若趋势持续,明年该比例将显著提升[6] - 除企业软件外,AI开发者持续训练模型处理高难度编程竞赛题、博士级生物学问题等精选难题[9]
星动纪元招聘!具身多模态、强化学习等多个方向
具身智能之心· 2025-09-17 00:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 职位描述 职位要求 加分项 职位描述 职位要求 1. 多模态强化学习算法研究与开发: 负责前沿多模态强化学习算法的研究、设计和实现,解决实际应用中的 复杂问题。 2. 模型训练与优化: 负责多模态大模型的训练、微调和优化,以提升模型在不同任务上的性能。 3. 多模态数据处理与分析: 负责多模态数据的收集、处理、清洗和分析,构建高质量的训练数据集。 4. 技术文档撰写与分享: 撰写相关技术文档,分享研究成果,并与团队成员进行技术交流和协作。 1. 强化学习(RL): 深入理解强化学习基本原理,熟悉主流 RL 算法(如 PPO、GRPO、DAPO 等)。 2. 多模态学习: 深入理解多模态学习的原理和技术,熟悉多模态融合、跨模态对齐等技术。 3. 大模型(LLM/LVM): 深入理解大模型的架构和训练原理,熟悉 Transformer 结构,了解预训练、微 调、提示工程等技术。 4. 计算机视觉/自然语言处理: 具备扎实的 CV 或 NLP 基础,了解主流模型(如 ViT、DINO、LLaMA 等),并具备相关项目经验。 1. 在顶级学术会议(如 NeurIPS ...
直击增程消费痛点,别克新能源豪华轿车至境L7全国首秀
南方都市报· 2025-09-16 11:07
9月15日,上汽通用旗下新能源智能豪华轿车——至境L7正式公开亮相,首发搭载"真龙"增程系统,并全球首发上 车基于端到端"强化学习"的Momenta R6飞轮大模型,以及高通最新一代SA8775P芯片。上汽通用方面介绍称,此 次新车发布补齐了别克过去在智能化、新能源等方面的短板,将自身传统优势与中国领先的新能源、智能化技术 进行了结合,以带来行业第一梯队的智电体验。 值得一提的是,至境L7此次定位在了20万-30万区间,而这一市场已是红海,竞争十分激烈。对此,上汽通用方面 表示,"当前,油车很多未切换到全新架构和智能化平台,电车又有里程焦虑问题,我们希望能让消费者在油车和 电车之间多一个兼顾的选择。" 解决增程用户痛点问题,追求产品性能平衡 南都记者注意到,此次至境L7的亮点主要在增程系统和智能化两方面。就增程而言,在会后接受采访时,上汽通 用汽车副总经理薛海涛提到了自身洞察,他说道,"过去多年,豪华品牌和合资品牌在新能源领域受到很大冲击, 之前我们推电车,但因为缺乏智能化,所以市场反响平淡。现在消费者选电车时,智能化已与新能源深度捆绑。 2017年左右我们就推出增程技术,当时新能源文化体系未成熟、电池技术也 ...
别克至境L7增程轿车全国首秀
环球网· 2025-09-16 11:03
2025年9月15日,新能源智能豪华轿车——至境L7首次公开亮相。作为别克高端新能源子品牌"至境"的首款旗舰轿车,至境L7采用顶级"真龙"增程技术,率 先搭载"逍遥智行"辅助驾驶系统,全球首发上车基于端到端"强化学习"的Momenta R6飞轮大模型,以及高通最新一代SA8775P芯片。此外,至境L7还拥有豪 华底盘和豪华舒享座舱,以及对标高端市场的配置。目前,至境L7已到达全国别克经销商展厅,并开启早鸟计划。 设计与舒适:豪华配置与底盘技术 至境L7拥有5032mmx1952mmx1500m车身尺寸和3000mm较长轴距。设计师从大自然汲取灵感,塑造了富有流动美感与张力的星空展翼外观,蓄势待发的豪 华溜背造型,具备超静谧NVH全车无框车门、隐藏门把手和20吋星光涡扇轮毂。银河星空展翼大灯、星轨浮光展翼尾灯,加上车顶激光雷达,以及标志"逍 遥智行"的小蓝灯,将科技融入优雅。 座舱采用全新纯净浮岛设计美学,塑造了简洁优雅、势能流淌的错层空间。内饰选材提供270°皮质环绕包覆。湖心岛式顶控、水中石晶雅顶灯,还有门板及 仪表台星河金砂饰条,呈现典雅、内敛的东方意蕴,营造高端、雅致的空间氛围。 至境L7拥有宽裕的座舱 ...
一文读懂GPT-5的绝招,这是决定AI未来的隐形武器
36氪· 2025-09-16 10:43
通用验证器的技术背景与需求 - 通用验证器被视为大模型能力提升的关键技术 旨在突破传统RLVR在开放性领域应用的局限性[2] - RLVR技术依赖二元奖励机制 在数学、编程等有标准答案的领域效果显著 但在医疗、教育、创意等主观领域表现不佳[2] - 通用验证器需具备多维度评估能力 将非结构化经验数据转化为有效学习信号 可能引发强化学习范式革新[2] 基于评分细则的验证器开发路径 - ScaleAI提出Rubrics as Rewards框架 通过"专家立法-模型释法-AI执法"三步构建多维评分体系[12][14] - RaR方法使Qwen2 5-7B模型在医疗领域得分从0 0818提升至0 3194 性能提升近四倍[21] - 在HealthBench-1k测试中 RaR相比Simple-Likert方法实现28%相对性能提升 接近需专家撰写参考答案的Reference-Likert方法效果[22] - 蚂蚁集团与浙江大学开发Rubicon系统 包含超10,000个评分标准 使用5,000+样本训练使Qwen-30B模型在开放式基准测试中实现5 2%绝对提升[27] - Rubicon通过否决机制、饱和度感知聚合和非线性函数解决奖励黑客问题和跷跷板效应 采用分阶段训练提升模型综合能力[28][30] 增强裁判模型的验证方法 - 阿里夸克团队提出Writing-Zero方法 通过强制生成批判性分析提升评分可靠性 解决传统奖励模型存在的Reward Hacking问题[36][38] - 采用BRPO算法进行成对比较偏好训练 在WritingBench测试集上达到8 29分 优于基准模型的6 89分[40][43] 基于模型自评的验证路径 - SEALab提出VeriFree方法 用模型自身对答案的自信度作为奖励信号 在Qwen3-8B测试中效果媲美传统强化学习方法[45][52] - UC Berkeley开发INTUITOR框架 通过自确定性指标实现无监督强化学习 在MATH500测试集达到61 2%准确率 接近GPRO的63 6%[55][59] - INTUITOR训练后的模型展现跨领域泛化能力 在LiveCodeBench代码任务上实现65%相对性能提升[60] 技术路径的局限性与发展方向 - 立法式验证方法依赖专家构建领域特定框架 扩展性存在挑战[24][69] - 内观式验证方法受限于预训练知识边界 无法验证未见过的外部事实[69] - Richard Sutton提出的OaK架构设想完全基于运行时经验的智能系统 通过8步循环实现自主认知构建[70][76] - 当前RaR的评分细则与INTUITOR的自信度指标分别对应OaK架构中子问题和价值函数的早期雏形[78]
上汽通用汽车“至境L7”公开亮相
中证网· 2025-09-16 06:13
产品发布 - 上汽通用汽车别克品牌旗下高端新能源子品牌"至境"的首款旗舰轿车至境L7于9月15日在上海首次公开亮相 [1] - 至境L7已到达全国别克经销商展厅并开启早鸟计划 消费者在9月28日前下订可享终身免费保养 [1] 技术配置 - 至境L7采用"真龙"增程技术 搭载"逍遥智行"辅助驾驶系统 [1] - 车型首发上车基于端到端"强化学习"的Momenta R6飞轮大模型及高通最新一代SA8775P芯片 [1] - 作为C级中大型豪华轿车 纯电续航里程302公里 综合续航里程1420公里 [1] 市场定位 - 公司表示至境L7以全球造车底蕴叠加本土创新智慧 凭借行业领先增程技术和第一梯队智能体验进击新能源汽车市场第一阵营 [1] - 该车型有望为别克品牌在新时代发展开创新局面 [1]
蚂蚁集团大模型数据智能算法工程师招聘(可内推)
自动驾驶之心· 2025-09-15 23:33
职位描述 大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集 建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下一个或多个方向: 1、数据知识体系生成:研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系; 2、语料自动分类:基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; 3、权威评测集建设:研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能;与跨职能团队合作,确保评测集覆盖全面且具有代表 性; 4、语料质量评估与合成:建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。研究数据驱动的语料合成技术,基于模型的评测效果,针 对性合成能够改进模型效果的训练语料,提升模型迭代效率; 5、智能标注链路研发:基于大模型数据的标注需求,研发辅助打标算法;设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质 量; 6、技术创新与优化 ...
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-15 23:33
在端到端自动驾驶领域,这篇文章是一个典型的"两段式网络架构"中的Planner模型,而且它不是基于BEV feature map进行下游控制任务的,而是直接对于感知输出 的结构化的信息(bbox,lanes等等)进行编码,并作为sequence token输入到decoder中,今天就为大家分享一下。二段式端到端非常适合新人练手: 为了帮助大家理解,网络架构图上我们做了详细的模块注释: 我们先整体上看一下PLUTO有哪些关键点: PLUTO主要有三个损失,主任务的损失包含回归损失和分类损失,共同组成模仿学习的损失。而Agent轨迹预测的损失如下图所示: 同时,PLUTO也添加了几个辅助的损失帮助模型收敛: 1)直击痛点,快速入门 本课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例,帮助学员短时间内掌握核心技术栈。理解关键概念后,拓展特定领域知识将变得更加轻松。 2)构建领域框架,提升研究能力 本文均出自平台最新推出的 『端到端与VLA自动驾驶小班课』 ,我们联合国内TOP主机厂算法专家共同打造! 技术专家带你深入端到端与VLA算法原理与技术开 发,目前已经正式开课! 技术栈多? ...