强化学习

搜索文档
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
机器之心· 2025-05-12 04:31
多模态奖励模型R1-Reward的核心创新 - 提出StableReinforce算法解决现有RL方法训练不稳定的问题,通过Pre-CLIP策略和优势过滤器(Advantage Filter)优化数值计算过程[21] - 引入一致性奖励(Consistency Reward)机制,使用裁判模型(Qwen2.5-VL-7B-Instruct)验证分析过程与最终答案的逻辑一致性[25][26] - 采用渐进式训练策略:先用GPT-4o生成20万条带思考链的SFT数据,再筛选高难度样本进行RL训练[27][30][39] 技术实现细节 - 将奖励建模转化为基于规则的RL任务,设计包含格式奖励、结果奖励和一致性奖励的复合奖励函数[26][31] - 改进PPO/Reinforce++算法存在的两大问题:概率比值(ratio)计算导致的数值溢出,以及优势归一化引发的训练不稳定[18][19] - 训练数据集R1-Reward-200k包含20万条多模态偏好数据,通过GPT-4o标注难度分级[12][27] 性能表现 - 在VL Reward-Bench等基准测试中超越SOTA模型8.4%-14.3%,推理时采用多次采样投票策略可进一步提升至85.3%(K=5)和86.47%(K=15)[12][35] - 模型输出长度减少15%显示推理效率提升,展现出类似人类的反思纠错能力[12][36] - 已在快手短视频/电商/直播场景实现工业化应用,包括标签识别、多视频相关性判断等[2] 算法比较 - PPO通过min/clip操作限制策略更新幅度,但直接应用于奖励模型会导致数值不稳定[15][17] - Reinforce++在PPO基础上增加KL散度惩罚和奖励归一化,但仍存在冷启动问题[16][19] - StableReinforce创新性地在指数计算前进行Pre-CLIP,并采用3-sigma规则过滤异常优势值[21] 未来方向 - 探索更先进的推理时扩展方法超越简单投票策略[38] - 优化训练策略以进一步释放模型潜力,如Any Correct策略在K=15时接近100%准确率[35] - 增强奖励模型基础能力,解决长思考链冷启动问题[27][30]
人形机器人到底是产业革命还是资本泡沫?
机器人大讲堂· 2025-05-11 04:26
人形机器人行业现状 - 人形机器人成为科技创新的重要代表,吸引大量资本投入,部分成立不足一年的企业估值迅速突破数十亿[1] - 资本市场对新兴技术盲目追捧,2024年人形机器人概念崛起吸引大量资本,但技术仍处于初步发展阶段[2] - 商业化进展与规模化落地不理想,技术滞后导致市场表现远未达预期[2] 技术瓶颈与挑战 - 感知环境方面存在精度不足问题,现有算法受光照、反射等因素干扰,难以应对动态变化环境[8] - 运动控制稳定性与精准度是发展瓶颈,高自由度机器人的动态平衡与运动协调仍是难题[10] - 缺乏智能决策能力,依赖预设程序和硬编码指令,未达到自主决策和灵活适应环境的能力[11][13] 历史案例与行业问题 - 本田Asimo机器人因高昂成本和技术依赖于2018年终止,成为技术理想化与市场需求不匹配的典型案例[4] - 波士顿动力"BigDog"和"Atlas"等产品均未能实现长期商业化成功[4] - 资本大量流入未必促进技术进步,反而可能导致市场泡沫[2] 未来技术发展方向 - 强化学习等新兴技术被引入机器人控制领域,通过模拟与学习优化动作控制策略[14] - 学徒学习方法通过试错过程提升机器人自适应能力,但需大量计算资源和时间投入[16] - 技术突破核心在于提升环境感知能力,实现复杂环境中的自主决策[16] 行业时间预期 - 短期乐观预计3-5年内人形机器人将开始小批量规模化落地[20] - 技术发展需循序渐进突破感知、运动控制、智能决策等多方面挑战[20] 相关企业列举 - 工业机器人企业包括埃斯顿自动化、埃夫特机器人等12家[22] - 服务与特种机器人企业包括亿嘉和、晶品特装等7家[22] - 医疗机器人企业包括元化智能、天智航等12家[22] - 人形机器人企业包括优必选科技、宇树等20家[22] - 具身智能企业包括跨维智能、银河通用等16家[24] - 核心零部件企业包括绿的谐波、因时机器人等21家[25]
前谷歌CEO:千万不要低估中国的AI竞争力
虎嗅· 2025-05-10 03:55
创始人心理与团队建设 - 创始人类型分为"远见型"和"放大器型",前者擅长技术突破,后者擅长规模化与公司治理 [3][4] - 优秀人才往往具备"验证游戏"特质,通过解决具体问题证明价值后被大公司收购 [6][7] - 顶尖人才的核心动力是解决复杂问题的成就感而非金钱或头衔 [18][20] 初创公司成功要素 - 关键成功组合:出色产品+可扩展的盈利模式,如谷歌的PageRank与AdSense系统 [16][17] - AI初创公司需构建"边做边学"能力,学习速度决定市场主导权 [17][33] - 竞争是检验领导力的核心场景,优秀创始人会主动迎接大公司挑战 [10][11] AI行业发展趋势 - AI发展受三大技术弧线驱动:算力缩放定律、强化学习规划、测试时计算 [33][34] - 中国在开源AI领域快速崛起,DeepSeek以500万美元训练出对标顶级闭源的模型 [45][46] - 未来十年硬件瓶颈在于电力与系统构建能力,芯片行业可能面临繁荣-萧条周期 [48][49] 人才管理与组织文化 - "天后型"员工是变革推动者,需重点保留;"中庸型"员工需淘汰 [21][22] - CEO的核心职能是协调创造性人才,通过短期项目测试工程团队执行力 [24][25] - 初创公司应鼓励冒险文化,成熟公司反而因资源丰富而趋于保守 [14][15] 技术战略与竞争格局 - 开源与闭源模式并存,中国通过开源策略打破西方技术封锁 [42][43] - 强化学习是未来最具潜力方向,奖励函数设计是关键突破点 [50][51] - 行业颠覆常由创始人推动,旧企业易被协议锁死难以转型 [30][31]
9年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来
机器之心· 2025-05-10 03:42
核心观点 - OpenAI研究科学家Dan Roberts预测强化学习将在未来AI模型构建中发挥更大作用,并最终可能创造出能够发现新科学的模型 [2] - 通过扩展强化学习规模,AI模型可能在未来9年内实现AGI(人工通用智能),甚至重现爱因斯坦级别的科学发现 [57][56] 模型性能与扩展 - OpenAI发布的o1和o3模型展示了测试时间扩展的重要性,模型表现随思考时间增加而提升 [6][7][9][12] - o3模型能够在一分钟内完成复杂的物理计算(如量子电动力学问题),而人类专家需要3小时 [14][19][31] - 模型性能与训练量呈正相关,强化学习将成为未来训练的主导方法 [34][37][40] 强化学习的未来方向 - OpenAI计划颠覆传统预训练与强化学习的比例,将强化学习从“樱桃”变为“超大樱桃” [42] - 公司计划筹集5000亿美元用于大规模计算基础设施扩建,以支持强化学习的扩展 [46][48] - 测试时间计算和强化学习训练将成为扩展科学的新方向 [53] AI科学发现的潜力 - 当前AI模型已能重现教科书级计算,但目标是为科学前沿做出贡献 [31] - 提问方式可能是限制AI科学发现的关键因素,需要优化问题设计 [54] - 根据趋势预测,到2034年AI可能具备8年连续计算能力,相当于爱因斯坦发现广义相对论的时间 [56][57]
21对话|卓驭陈晓智:用有限算力做极致性能,这是我们血液里的东西
21世纪经济报道· 2025-05-10 00:36
公司技术路线与产品策略 - 公司定位为软硬一体供应商,通过自研硬件和软件实现极致成本控制,如补盲雷达成本控制在千元以内[1][5] - 采用7V+32TOPS低算力配置实现城市记忆领航、高速领航驾驶功能,对比行业主流254TOPS方案显著降低成本[1][7] - 推出基于英伟达Thor平台的VLA大模型,单颗700TOPS域控成本低于双OrinX(500TOPS×2)方案[3][6] - 2024年推出"成行平台"提供7V/9V方案,通过BEV+双目视觉技术降低对高精地图与激光雷达依赖[2] 市场定位与客户拓展 - 聚焦8万-15万元中低端市场,已实现8万元车型标配高阶智驾功能[1][3] - 2024年合作客户包括一汽、大众、比亚迪等9大车企,20余款车型量产+30款待量产[2] - 计划拓展豪华品牌及海外客户,推进本土化车型合作[7] 核心技术突破 - 强化"视觉优先"策略,认为激光雷达主要起安全冗余作用,2024年将量产激目1.0系统[5] - 世界模型技术实现"千人千面"个性化驾驶,通过思维链推理生成N种未来场景进行决策[12][15] - 强化学习与模仿学习结合提升安全性,可使长尾场景处理能力提升一个数量级[13][17] - 2024年技术重点为强化学习与世界模型落地,预计年内实现L2级更自然的车位自主寻找功能[12][20] 行业趋势判断 - 中低端市场将成为2025年智驾主战场,公司在该领域具备先发优势[3] - 世界模型将成为2024-2025年行业技术升级方向,推动端到端驾驶体验革新[19] - L3落地需以L2功能完善为前提,当前重点为硬件预埋而非商用推广[9][10]
【重磅深度】AI+汽车智能化系列之十一——以地平线为例,探究第三方智驾供应商核心竞争力
东吴汽车黄细里团队· 2025-05-09 12:01
行业趋势与机遇 - 头部第三方智驾供应商有望占据50%新车市场份额,成为二三线车企智驾平权最优方案[2][8] - 智驾平权需求加速城市NOA普及,2026年将迎来大规模智驾平权时代[28][29] - 国产芯片方案成为高阶智驾成本最优解,系统降本成为暗线[2][8] 国产芯片竞争优势 - 国产芯片经过5年追赶,在性能、量产验证和客户获取方面已比肩英伟达[3][39] - 地平线J6P芯片性能较竞品提升17-40倍,采用四芯合一设计实现560TOPS算力[117][119] - 7nm智驾芯片出货150万片时全生命周期成本可打平直接采购成熟方案[55][57] 第三方供应商核心价值 - 芯片研发需3年以上周期,持续迭代能力是关键[54][55] - BEV+Transformer算法框架降低Tier1路径选择风险[60][62] - 强化学习技术突破模仿学习局限,提升智驾模型性能上限[63][67] 地平线公司分析 - 软硬一体商业模式实现NPU与算子最优适配,芯片性能利用率最大化[5][77] - 征程6系列覆盖从80TOPS到560TOPS全场景需求,已获多家车企定点[114][125] - 2024年汽车解决方案营收占比97%,授权及服务业务毛利率达92%[130][132] 技术发展路径 - E/E架构迭代推动车企能力边界外溢,集中式架构赋能软件研发权[16][18] - 智能化时代强调软硬一体适配,车企自研芯片需兼具大出货量和快速迭代能力[55][57] - 地平线BPU架构实现CNN性能提升200倍,Transformer性能提升20倍[83][84]
颠覆谷歌搜索API,成本降至88%,阿里开源RL框架ZeroSearch,重新定义AI搜索!
AI科技大本营· 2025-05-09 09:35
阿里巴巴通义团队开源ZeroSearch解决方案 - 仅需70.8美元在4块A100 GPU上运行140亿参数模型,即可获得媲美谷歌搜索的AI搜索能力 [1] - ZeroSearch是由大模型驱动的生成式搜索引擎框架,训练过程无需调用外部搜索接口,实现低成本高性能检索能力构建 [1] - 解决方案通过强化学习框架在不与真实搜索引擎交互的前提下训练出"搜索能力" [2] ZeroSearch技术原理 - 采用轻量级监督微调将大模型转化为检索模块,能根据查询生成相关与干扰文档 [2][8] - 引入基于课程学习的rollout策略,逐步降低生成文档质量,挑战模型推理和检索能力 [8] - 训练过程中由模拟引擎直接生成文档模拟搜索结果,完全无需调用真实搜索引擎 [6] 性能表现与成本优势 - 在多个实验场景中实现80%-90%训练成本降低 [10] - 使用14B参数模型训练成本仅70.8美元,相比传统方法成本降低高达88% [16] - 7B参数模型已可与谷歌搜索媲美,14B参数版本甚至超越谷歌搜索结果质量 [15] 实验结果 - 在NQ、TriviaQA等7个公开问答数据集上均超过或持平使用真实搜索引擎训练的模型 [15] - ZeroSearch-inst版本在多个任务中表现最佳,平均得分达40.54 [11] - 在TriviaQA任务中得分高达63.54,显著优于谷歌搜索的61.22 [11][15] 应用与扩展性 - 方案已开源代码、数据集和预训练模型 [15] - 可广泛兼容各类LLM,包括Qwen 2.5与LLaMA 3.2等基础版与指令微调版 [16] - 显示出极强的可泛化性和扩展能力 [16]
拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了
AI前线· 2025-05-09 05:18
核心技术突破 - 阿里巴巴研究人员发布名为"ZeroSearch"的新技术,可完全消除对昂贵商业搜索引擎API的需求,大幅降低AI系统训练成本和复杂度[1] - 该技术采用强化学习框架,允许大语言模型通过模拟方式开发高级搜索功能,无需在训练过程中与真实搜索引擎交互[2] - 使用3B参数的LLM作为模拟搜索引擎即可有效提升搜索能力,70亿参数模块性能媲美谷歌搜索,140亿参数模块甚至超越谷歌[3] 性能表现 - 在七个问答数据集测试中,ZeroSearch性能与真实搜索引擎训练模型相当或更优[3] - 表格数据显示ZeroSearch-inst在Qwen-2.5-7B模型上平均得分达40.54,显著高于传统方法[5] - 14B参数的SFT模型平均得分33.97,超越Google搜索引擎的32.47[6] 成本优势 - 使用64000个搜索查询训练时,Google API成本586.7美元,而14B参数模拟LLM仅需70.8美元,成本降低88%[7] - 技术消除了大规模RL训练中数十万次API调用产生的高额费用[2] 技术实现原理 - 通过轻量级监督微调将LLM转化为检索模块,生成相关和不相关文档响应查询[9] - 采用基于课程搜索模拟的推出策略,逐步增加训练难度[11] - 使用基于F1分数的奖励信号作为强化学习监督[12] 行业影响 - 技术突破可能改变AI开发经济模式,减少对大型技术平台的依赖[14] - 为预算有限的小型AI公司和初创企业创造公平竞争环境[14] - 显示AI系统可不依赖外部工具实现能力提升,未来技术格局或将重塑[15] 适用性与扩展性 - 技术适用于Qwen-2.5和LLaMA-3.2等多个模型系列[2] - 兼容PPO、GRPO等各种RL算法,无需单独监督预热阶段[2] - 增加GPU数量可显著提升模拟LLM生成吞吐量,实现高效大规模部署[4]
深度|前谷歌CEO谈全球AI竞赛:AI竞争核心是系统能否自我演化;AI不仅没有泡沫,反而被严重低估了
Z Potentials· 2025-05-09 03:35
创始人心理与团队建设 - 创始人分为两种类型:天赋型创始人具备独到远见,职业经理人型则擅长规模化扩张和制度建设[4] - 优秀人才往往最终选择创业,初创公司创始人参与的是"验证游戏",10家公司中9家不会成功,4家彻底失败,5家成为"活死人"[6] - 领导力核心是在压力下迎难而上,CEO角色被严重低估,需要每天处理各种挑战并坚持12-14小时工作[12] - 天后型人才是公司真正推动者,需要重点保留和支持,而中庸型员工本质自利应被淘汰[20] AI行业竞争格局 - AI领域尚未出现泡沫,反而被严重低估,技术曲线还未触顶,临界点尚未到来[9][28] - 中国将AI视为国家级战略,投入数十亿美元,DeepSeek等开源模型已取得世界领先地位[34][35] - 美国面临开源与闭源路线选择,顶级模型多为闭源,但大学应继续推动开源创新[36][37] - 硬件瓶颈将成为未来十年主要限制因素,电力资源和系统构建能力是关键挑战[40] 技术发展趋势 - AI核心竞争力在于系统持续学习和自我演化能力,学习速度最快者将获胜[9][15] - 强化学习是当前最难也最有前景的方向,特别是控制AI规划能力的发展[42][44] - 三大技术趋势驱动AI进步:缩放定律、强化学习规划、测试时计算[28] - 基础模型可应用于各学科领域,将知识体系化并实现问题建模与解答[43] 公司运营与管理 - 初创公司成功需同时满足多个条件:正确时机、真实市场需求、强大技术方案[14] - 谷歌成功靠两大支柱:PageRank搜索引擎技术和AdSense广告拍卖系统[15] - 招聘顶尖人才需强调解决重要难题的机会而非金钱或头衔[17][19] - 组织管理中应给予人才短期项目测试其能力,工程管理者需随时掌握项目细节[22] 全球AI治理挑战 - 超级智能系统可能带来灭绝性威胁,需要建立人类与AI共处的思维体系[32][33] - 开源模型面临安全监管难题,需平衡代码公开与防止有害信息传播[38] - 中美在AI领域形成竞争格局,中国开源方案可能吸引多数国家采用[38][41]
文生图进入R1时刻:港中文MMLab发布T2I-R1
机器之心· 2025-05-09 02:47
核心观点 - 提出T2I-R1模型,基于双层次CoT推理框架(Semantic-CoT和Token-CoT)与强化学习,显著提升文本生成图像的质量和语义对齐 [1][3][9] - 首次将思维链(CoT)推理策略应用于自回归图片生成领域,解决跨模态对齐和细粒度视觉细节生成问题 [1][7] - 通过BiCoT-GRPO强化学习方法联合优化Semantic-CoT和Token-CoT,利用多专家模型集成作为奖励机制提升生成效果 [11][12] 方法架构 Semantic-CoT - 在图像生成前进行文本推理,设计全局结构(如对象外观和位置),显式规划Prompt以降低生成难度 [7][9] - 示例:生成冰屋时推理其"空气动力学穹顶形状""光滑半透明表面""入口斜坡隧道"等语义细节 [6][14] Token-CoT - 在离散空间中逐块生成图像Token,专注于底层像素细节和视觉连贯性 [7] - 与文本CoT类似,基于先前Token输出后续Token,维持相邻Patch的一致性 [7] 技术突破 - 统一理解与生成能力:基于ULM(Janus-Pro)框架整合双层次CoT,避免独立模型带来的计算成本增加 [8][9] - 奖励机制创新:集成多专家模型(如目标检测器、VQA模型)从提示对齐、美学吸引力、对象存在性等维度综合评估 [12] 性能表现 - 定量结果:在T2I-CompBench和WISE Benchmark上分别比基线模型提升13%和19%,部分子任务超越FLUX-1 [16] - 定性优势:处理非常规场景(如"火车底部的小猪")时展现更强鲁棒性,生成结果更符合人类意图 [13][14]