Workflow
强化学习
icon
搜索文档
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!
AI前线· 2025-08-22 06:07
核心观点 - 大语言模型在数学与代码推理能力上的竞争日趋激烈 数学与代码推理能力已成为大语言模型竞争中最硬核的"分水岭" [1] - 快手Klear语言大模型团队推出Klear-Reasoner模型 基于Qwen3-8B-Base打造 在多个权威基准测试中达到同规模模型的SOTA水平 [1] - 核心技术创新是GPPO算法 一种在保留训练稳定性的同时大幅提升探索能力的强化学习优化方法 [5] 技术突破 - GPPO算法通过stop gradient操作将clip操作与梯度反向传播解耦 让被截断的token依然参与反向传播 [8] - 解决传统clip机制的两个隐藏问题:高熵token被裁剪限制探索能力 负样本延迟收敛拖慢修正速度 [7][9] - 在数学和代码任务上表现出优势 继承PPO悲观更新策略 保持更清晰的优化信号和更稳定的训练 [10] 性能表现 - 在AIME2024上取得90.5%的成绩 AIME2025上取得83.2%的成绩 登顶8B模型榜首 [2] - 全面超越同规模开源模型包括DeepSeek蒸馏版DeepSeek-R1-0528-8B [2] - 在LiveCodeBench V5和V6等基准测试中表现优异 [2] 训练方法优化 - SFT阶段强调数据质量优先 高质量数据源比数量更重要 [12] - 数学数据Top1源取得AIME2024 40.83%和AIME2025 36.04%的最佳成绩 [14] - 代码数据Top2源取得LiveCodeBench V6 29.20%的最佳成绩 [15] 数据策略创新 - 高难度任务保留部分带瑕疵的推理路径反而能提升模型表现 [16] - 困难样本混合数据在AIME2024达到47.29% 优于纯正确数据的45.63% [17] - 简单任务错误样本会损害性能 困难任务错误样本具有价值 [16][17] 强化学习改进 - 代码任务使用软奖励(测试用例通过率)比硬奖励更有效 [19] - 软奖励缓解奖励稀疏问题 增加训练信号密度 降低梯度估计方差 [19] - 代码数据测试用例过滤 pass@16大于0.5的数据保留显著提升性能 [21][26] 开源贡献 - 完整公开训练细节与全流程pipeline [1] - 提供论文链接、Hugging Face地址和GitHub地址 [3] - 为社区贡献可复现、可推广的推理模型监督学习和强化学习路线 [24]
从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践
机器之心· 2025-08-22 04:58
研究背景与目标 - 强化学习在大语言模型推理优化中存在技术多样性但缺乏统一标准的问题 [8][9][14] - 研究旨在系统评估主流RL技术组件的有效性并探索简化算法方案 [3][9][14] 实验设计 - 基于自研ROLL框架实现统一实验平台确保公平对比 [3][12][15] - 覆盖不同模型规模(4B/8B)、模型类型(Base/Instruct)及任务难度(Easy/Medium/Hard)[15][17] - 在六个数学推理数据集上进行多维度评估 [18] 优势归一化技术分析 - 组内归一化在稀疏/偏斜奖励分布下更稳定 [21][24][25] - 批次归一化对分布偏斜高度敏感易受极端样本影响 [20][24][25] - 混合归一化(组内均值+批次标准差)兼顾语义合理性与统计稳健性 [29][31] 裁剪机制研究 - Clip-Higher技术对已对齐Instruct模型有效但基础模型效果有限 [32][38] - 裁剪阈值需根据模型规模差异化设置(4B持续提升,8B存在拐点)[36][38][46] - 低裁剪阈值会抑制语篇连接词压缩推理路径 [39][41] 损失聚合方式 - 基础模型更适合token-level损失聚合 [44][47][49] - 对齐模型更适合sequence-level损失聚合 [44][47][49] 样本过滤策略 - 过滤超长样本在8k token限制下有效提升训练质量 [50][52][54] - 20k token限制下过滤收益减弱因无效样本占比降低 [52][54] - 过滤操作能增强模型终止建模能力降低重复生成比例 [55][57] Lite PPO创新方案 - 仅包含混合优势归一化和token-level损失聚合两项核心技术 [58][59][60] - 在多个数学推理任务上超越多技巧复杂方案 [59][60] - 具有训练稳定、超参敏感度低、工程简单的优势 [59][60] 研究价值与启示 - 建立首个RL4LLM关键技术系统性对比框架 [63] - 证明精简技术组合比复杂堆叠更具鲁棒性和实用性 [64][67] - 通过开源框架推动领域可复现性与标准化研究 [65][66]
动捕设备能成为具身大模型的下一场蓝海吗?
机器人大讲堂· 2025-08-21 10:11
具身智能产业发展历程 - 具身智能概念可追溯至20世纪50年代图灵论文[1] - 1980-1990年代进入早期探索与理论发展阶段[1] - 2000年代初形成跨学科融合与技术突破[1] - 2010年代中期深度学习技术注入新动力[1] - 2020年以来逐步走向产业应用[1] 大模型技术演进 - 大模型发展始于20世纪AI研究初期[2] - 2017年谷歌Transformer引入自注意力机制[2] - 2022年底ChatGPT推动NLP领域发展[2] - 2023年3月GPT-4实现多模态转变[2] 具身大模型发展路径 - 由非具身大模型发展而来[4] - 谷歌RT系列为代表:2022年RT-1结合视觉/语言/动作[4] - 2023年RT-2提升多模态融合能力[4] - 特斯拉FSD v12采用端到端架构[4] - 2024年RFM-1推动向通用化发展[4] 核心技术架构 - Transformer模型解决RNN梯度消失问题[5] - 采用自注意力机制和位置编码层[5] - GPT基于Transformer预训练范式[7] - 强化学习通过环境交互学习最优策略[9] - 多模态融合分早期/中期/晚期三个层次[9] 模型架构对比 - 分层模型将任务分解为规划/决策/控制三层[9] - Figure AI部署三层架构:OpenAI model/Neural Network Policies/Whole Body Controller[11] - 端到端模型直接映射输入输出[12] - RT-2使用VLM生成动作token序列[12] - 端到端模型泛化能力强但可解释性差[14] - 分层模型模块化好但系统复杂[14] 数据资源体系 - 具身机器人数据集仅2.4M(Coatue数据)[15] - 2024年多家机构发布高质量数据集[15] - 数据采集呈金字塔结构:底层仿真/中层动捕/顶层遥操[17] - 遥操数据量最少但准确性最高[17] - 动捕技术实现实时动作捕捉[19] - 仿真数据降低成本但存在差异[19] 训练场建设进展 - 特斯拉Optimus/谷歌RT-X建设训练场[20] - 斯坦福与DeepMind推出ALOHA2框架[20] - 2025年1月上海启用全国首个异构人形机器人训练场[22] - 首期部署超100台异构人形机器人[22] - 计划2025年收集1000万条实体数据[22] 动作捕捉技术 - 系统由硬件(传感器/捕捉设备)和软件构成[23] - 分机械式/声学式/电磁式/惯性传感器式/光学式五类[25] - 基于真实本体的数据采集成本最高[27] - 基于虚拟本体的数据存在环境互通性问题[27] - 数据连续性比精度更重要[27] 产业链重点企业 - 度量科技:光学三维动作捕捉系统精度达0.01mm/0.1°[28] - 凌云光:FZMotion系统具备实时跟踪测量功能[29] - 奥飞娱乐:投资诺亦腾开发MEMS惯性传感器[30] - 利亚德:OptiTrack技术应用于影视游戏领域[31] - 洲明科技:非穿戴式系统实现毫秒级延迟反馈[32] - 芯动联科:MEMS惯性传感器拓展至机器人领域[33]
上汽通用“牵手”Momenta,别克至境L7将化身“AI驾驶宗师”
新浪财经· 2025-08-21 06:47
战略合作与技术整合 - 上汽通用汽车与Momenta签署辅助驾驶领域战略合作协议 通过技术融合和优势叠加共同开发更适应中国路况和驾驶习惯的辅助驾驶技术 [1] - 合作基于Momenta的30亿公里实战里程提炼的7000万黄金数据 强化模型训练和场景应对能力 [2] 技术创新与模型优势 - Momenta R6飞轮大模型采用强化学习技术 突破模仿学习局限 实现自我优化和持续迭代 提升全场景辅助驾驶能力 [2] - 模型通过噩梦题库特训 增强泛化能力 可应对近距离加塞 鬼探头和盲区遮挡等复杂高危路况 [2] 产品功能与性能提升 - 别克至境L7全球首发搭载Momenta R6大模型 提供无断点城市NOA和业内首批不停车一键泊入功能 [2] - 车辆实现窄路巡航精准预判 借道避让平稳流畅 以及无车道线情况下ETC自主通行一气呵成 [3] - 泊车辅助支持行进中实时识别车位和规划轨迹 覆盖机械车库等复杂场景 提升泊车效率并消除停车焦虑 [3] 市场定位与战略意义 - 别克通过本土创新与全球造车底蕴结合 引领合资品牌在新能源市场的反攻 [4] - 至境L7作为逍遥架构技术集大成者 加快上市步伐 满足用户对新能源豪华轿车的全新需求 [4]
喝点VC|a16z对话OpenAI研究员:GPT-5的官方解析,高质量使用场景将取代基准测试成为AGI真正衡量标准
Z Potentials· 2025-08-21 03:09
GPT-5技术能力提升 - 模型在推理、编程和创意写作方面实现质的飞跃,前端开发能力相比GPT-3达到完全不同的层次[6][9][12] - 通过优化数据集设计和奖励模型,显著提升编程能力,被描述为"市面上最强的编程模型"[11][12] - 创意写作能力显著增强,能够生成细腻动人的文本,例如悼词等难以撰写的内容[29] - 通过中期训练(mid-training)更新知识截止时间并扩展模型智能,弥补预训练和后期训练之间的空白[45] 行为设计与幻觉控制 - 针对GPT-4存在的"逢迎"问题,团队重新设计行为目标,追求健康、有帮助的互动感[13] - 幻觉和欺骗问题得到显著收敛,通过引导模型逐步思考而非快速回答来减少错误[14] - 优化多奖励目标的权衡,确保模型既有帮助性又避免过度互动[13] 智能体与工作流变革 - 智能体定义为能异步完成真实任务的助手,核心能力包括深度研究、文档编辑和跨服务数据整合[36] - 未来方向包括长时间运行任务(如耗时数小时或数天的项目)和端到端流程自动化[35] - 当前限制在于缺乏高质量计算机使用数据,需通过自举(bootstrap)方式生成训练数据[43][44] - 用户对异步任务接受度提高,愿意为高质量结果等待(如深度研究任务等待5分钟)[37][38] 评估标准与开发方法论 - 基准测试价值趋近饱和(如指令跟随分数从98提升至99),未来标准转向真实使用场景和新用例解锁[21][22] - 开发方法从目标能力反推,针对具体场景(如幻灯片制作、电子表格编辑)设计内部评测[6][22] - 通用能力优先于垂直领域,因智能提升会同时改善多项功能(如指令理解、工具使用)[24][25] 行业影响与机会 - 非技术背景用户可通过"vibe coding"快速构建完整应用,几分钟完成过去需一周的工作[6][17] - 定价策略降低使用门槛,预计催生大量独立开发者和创业公司[15][17] - 多模态能力(如计算机视觉理解网页截图)和工具集成(浏览器+终端)为自动化奠定基础[28][42] 公司文化与使命 - 研究团队保持小规模灵活结构(如深度研究团队仅2人),强调主动性和跨部门协作[54] - 使命是推动AGI落地并通过免费提供最强模型实现技术普及[58] - 数据质量被视为当前能力跃升的关键因素,优于架构或规模改进[26][27]
突破Agent长程推理效率瓶颈!MIT&新加坡国立联合推出强化学习新训练方法
量子位· 2025-08-20 10:21
文章核心观点 - MEM1框架通过强化学习训练AI Agent自主管理记忆和推理 显著提升处理复杂任务时的效率和性能 [2][3][6][8][9][12][17][22] 技术原理 - 采用基于结果奖励的强化学习训练 使模型学会提取、整合和修剪信息 [12][14] - 引入内部状态<IS>作为工作记忆 实现近似常量级显存开销 [8][9][16] - 通过注意力掩码机制限制关注范围 迫使模型高效压缩历史信息 [12] 性能表现 - 7B参数MEM1模型推理速度达传统14B模型的3.5倍 [2] - 峰值上下文token数量降至传统模型的1/4 [2] - 在16目标任务测试中准确率12.3% 远超对比模型Qwen2.5-14B-Instruct的3.54%和Qwen2.5-7B+外部记忆模块的4.56% [3][17] 应用场景 - 支持多轮复杂任务处理 包括文档检索QA、开放域Web QA和多轮网购决策 [19] - 展现分问题独立存储、自适应搜索策略和任务规划能力 [20] - 在长程环境交互任务中保持上下文稳定 避免线性增长 [16] 行业意义 - 为处理长推理上下文挑战提供新思路 替代传统外部记忆模块方案 [22] - 实现端到端训练 降低工程复杂度并提升效果可控性 [12][22] - 论文已被COLM 2025 RAM workshop收录为口头报告 [3]
强化学习大模型“上车”:上汽通用联手Momenta,解锁“老司机”智驾体验
新华财经· 2025-08-20 02:37
行业趋势 - 人工智能大模型应用正深刻改变汽车辅助驾驶和智能座舱领域 智能化成为汽车竞争核心焦点 [1] - 车企和供应商竞相布局芯片上车和大模型上车 集成传感器 控制器 显示器和通信技术实现车辆智能化管理 [1] 合作背景 - 上汽通用汽车与智能驾驶公司Momenta签署战略合作协议 在辅助驾驶技术领域深度协作 [1] - Momenta城市NOA累计搭载量超过五成 位居独立智能驾驶解决方案商市场第一 [2] - Momenta大模型已合作上车近150款量产车型 覆盖10万元级经济型到30万元级豪华车型 [2] 技术积累 - 上汽通用辅助驾驶探索始于1999年 凯迪拉克Deville率先搭载热成像夜视检测系统 [2] - 2016年凯迪拉克CT6实现增强型夜视功能 2018年引入Super Cruise超级辅助驾驶系统 [2] - Super Cruise系统累计安全运行里程超过8.77亿公里 [2] - 针对中国道路工况和用户习惯进行系统性本土化验证与测试 收集大量复杂路况数据 [2] 技术优势 - 采用端到端强化学习大模型Momenta R6飞轮大模型 突破模仿学习局限 [1][3] - 通过极限场景挑战数据和坏数据探索驾驶策略 形成老司机般应对能力 [3] - 建立双重检测 三重提醒 执行系统冗余等多重冗余机制 [2] - 优化接管提醒滞后 提醒无效或过度干扰等行业常见痛点 [2] 功能表现 - 提供全场景辅助驾驶功能 包括无断点城市NOA和不停车一键泊入泊车服务 [1] - 在窄路巡航或借道避让场景中车辆识别精准 起停平稳 [4] - 实现高速收费站ETC通行无车道线指引下盲开 自主选择ETC路线 [4] - 行驶中实时识别车位 系统规划最优轨迹 实现行进中泊入 [5] - 可应对机械车库或仅40厘米余量窄车位 [5] 系统整合 - 辅助驾驶需要车身结构 电子架构 智能座舱 智能底盘和动力系统等全车系统协同响应 [5] - 别克全新逍遥超级融合架构在极短时间内协调系统 对辅助驾驶指令做出精准响应 [5] - 确保R6飞轮大模型大脑指令能够被精准传导和执行 [5] 合作意义 - 标志合资品牌在辅助驾驶领域实现重要进阶 [1] - 融合上汽通用安全工程经验与Momenta领先大模型能力 [5] - 在安全保障与驾驶流畅性之间取得突破性平衡 [5] - 推动高阶辅助驾驶在中国复杂路况下规模化落地与用户体验升级 [5]
腾讯研究院AI速递 20250820
腾讯研究院· 2025-08-19 16:01
生成式AI - 英伟达发布9B参数量的Nemotron Nano 2模型,采用Mamba-Transformer混合架构,推理吞吐量最高可达传统模型的6倍 [1] - 模型对标Qwen3-8B,在数学、代码、推理与长上下文任务中表现持平或更优,完全开源且支持128K上下文长度 [1] - 通过20万亿Token训练基础模型,再通过Minitron策略将12B参数模型压缩至9B,单张A10G GPU即可支持128k上下文 [1] OpenAI模型演进 - OpenAI总裁分享GPT-1到GPT-5对相同提示的回答对比,展示模型在知识储备、逻辑结构和语言连贯性上的显著进步 [2] - 最新GPT-5能提供更加有逻辑、丰富且具有情感价值的回复,而初代模型GPT-1和GPT-2回答常带有胡言乱语的特性 [2] - 部分网友对早期模型表示喜爱,认为它们的回答更"狂野"和"不媚俗",甚至有人称GPT-1更像"真正的AGI" [2] DeepSeek模型更新 - DeepSeek最新线上模型版本升级至V3.1,上下文长度扩展至128k,用户可通过官方网页、APP和小程序使用 [3] - 此次更新仅为常规版本迭代,与外界期待的DeepSeek-R2无关,R2在8月内并无发布计划 [3] - 扩展的上下文容量将有助于用户进行长文档分析、代码库理解和保持长对话一致性 [3] 图像生成技术 - 神秘AI绘图模型Nano Banana在LMArena评测中表现出卓越的人物一致性能力,可精准保留面部特征和表情 [4] - 阿里推出基于20B Qwen-Image模型的图像编辑模型Qwen-Image-Edit,支持语义与外观双重编辑能力 [5] - Qwen-Image-Edit能实现精准文字编辑,在保留原字体、字号和风格的前提下进行增删改 [6] 代码能力测评 - 腾讯混元发布专门测评大模型代码能力的数据集AutoCodeBench,包含3920个分布在20种编程语言的高难度问题 [7] - 该数据集不需人工标注,具有高难度、实用性和多样性特点,已有评测显示业界领先模型的表现均低于55分 [7] - 同时开源全套链路工具,包括数据生成工作流AutoCodeGen、简易版AutoCodeBench-Lite等 [7] 视频生成技术 - AI创企Higgsfield推出Draw-to-Video功能,用户只需在图片上绘制箭头、图形等元素并输入动作指令,AI就能生成动态画面 [8] - 该功能配套Product-to-Video功能,支持多种视频生成模型,能轻松生成广告视频 [8] - Higgsfield成立于2023年10月,曾被传与Meta洽谈收购,其电影级镜头控制技术与用户友好的交互设计引发关注 [8] 人形机器人 - 智元机器人完成"夏日CityWalk"24小时全直播活动,全尺寸人形机器人远征A2在37℃高温下完成全球首次完全自主户外行走挑战 [9] - 远征A2展示了强大的环境适应性能,全程无遥控干预,自主完成避障、路径规划、步态调整 [9] - 通过"热插拔换电"技术实现20秒内快速补能,标志着从技术研发走向商用量产的重要里程碑 [9] 超级智能架构 - 强化学习之父Richard Sutton提出OaK架构,描绘了通过运行时经验发展超级智能的路径 [10] - OaK架构包含八个步骤:学习策略与价值函数、生成状态特征、特征排序、构建子问题等 [10] - 该架构强调开放式抽象能力,能在运行时主动发现特征和模式,但仍需解决持续深度学习等关键前提技术 [11] ChatGPT发展 - OpenAI副总裁承认未继续提供GPT-4o是失误,低估了用户对模型的情感依赖,未来将提供更清晰的模型下线时间表 [12] - ChatGPT用户群体高度两极分化,普通用户希望简洁体验,而重度用户需要完整模型切换选项 [12] - 订阅模式展现强劲增长,企业用户从300万增至500万,未来将探索交易佣金等新方向 [12]
强化学习之父Richard Sutton最新演讲揭示OaK架构:通向超级智能的八步愿景
机器之心· 2025-08-19 09:45
强化学习与OaK架构 - 强化学习之父Richard Sutton提出OaK架构作为实现通用人工智能(AGI)和超级智能的路径,该架构基于经验学习并强调开放式抽象[1][2] - OaK架构目前仍是一个愿景,需要突破持续深度学习等关键技术才能实现[6][86] - 架构名称来源于两个核心概念:Options(选项)和Knowledge(知识),通过构建子问题和状态转移模型实现智能演进[78][80] 智能体设计原则 - 理想智能体应具备通用性、经验性和开放式抽象能力,不预设特定领域知识[13][23] - 强调运行时学习而非设计时预设,因世界复杂性无法预先建模[22][38] - 采用奖励假设作为目标形式化方法,简单标量奖励足以引导复杂智能行为[44][47][51] 技术实现路径 - 架构实现需完成八个步骤:从基础强化学习到特征生成、子问题构建、规划执行等[82] - 关键挑战包括持续深度学习中的灾难性遗忘问题,目前仅部分解决方案[89] - 状态特征生成是核心难题,需突破表示学习和元学习等传统方法局限[93][96] 行业应用前景 - 架构强调的计算资源瓶颈而非数据量限制,符合当前AI发展趋势[43] - 选项模型和高级规划能力可提升AI系统在复杂场景的决策水平[141][145] - 开放式抽象机制为AI系统自主演进提供理论框架[160]
端到端VLA的起点:聊聊大语言模型和CLIP~
自动驾驶之心· 2025-08-19 07:20
大语言模型技术发展 - 大语言模型近五年发展迅速,Transformer架构是核心技术基础 [3][5][7] - Transformer核心模块包括注意力机制和多头注意力,通过8个head增强编解码能力 [11][12] - 位置编码采用正弦/余弦函数实现顺序表征,公式为PE(pos,2i)=sin(pos/10000^(2i/d_model)) [9][13] - BPE分词算法通过合并高频字符逐步构建词表,流程包括统计频次、迭代合并等步骤 [8][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的典型代表,实现跨模态特征匹配 [18] - 多模态技术栈涵盖BEV感知、扩散模型、强化学习等方向 [48] - VLA(Vision-Language-Action)成为自动驾驶前沿方向,整合VLM、BEV和强化学习技术 [50] 端到端自动驾驶课程体系 课程结构 - 第一章概述端到端发展史,对比模块化与端到端范式差异 [40] - 第二章重点讲解大语言模型、BEV感知、扩散模型等关键技术 [41][48] - 第三章分析二段式端到端方案,涵盖PLUTO、CarPlanner等经典算法 [42] - 第四章深入一段式端到端,包括UniAD、DiffusionDrive等前沿工作 [43][47] - 第五章设置RLHF微调实战,强化VLA技术迁移能力 [52] 技术亮点 - 覆盖CVPR'25最新成果CarPlanner和AAAI'25世界模型Drive-OccWorld [42][45] - 实战项目包括Diffusion Planner和ORION开源框架复现 [47][50] - 课程目标使学员达到1年经验算法工程师水平,掌握40-70K岗位核心技术 [31][57] 行业应用与人才需求 - VLA算法专家岗位薪资达40-70K-15薪,需求集中在3-5年经验硕士 [31] - 技术栈要求涵盖多模态大模型、BEV感知、模型量化部署等方向 [34][48] - 主机厂加速布局端到端量产方案,推动世界模型、扩散模型等技术落地 [26][50]