强化学习（RL） - 财报，业绩电话会，研报，新闻 - Reportify

强化学习（RL）

搜索文档

揭秘：OpenAI是如何发展出推理模型的？

华尔街见闻· 2025-08-04 07:02

文章核心观点 - OpenAI的ChatGPT成功被视为一次意外收获公司真正的长期战略是开发具备推理能力的通用AI智能体（AI Agents）其技术突破源于数学推理研究[1][2][3] - 公司通过结合大语言模型、强化学习和测试时计算三大技术实现推理能力飞跃关键突破内部代号为"Q*"或"Strawberry"[4][5] - 基于新方法开发的o1推理模型在2024年秋季问世该模型使OpenAI在国际数学奥林匹克竞赛（IMO）中获得金牌[3][6] - 公司面临Google、Anthropic、xAI和Meta等竞争对手的激烈追赶行业竞赛焦点在于谁能率先实现通用AI智能体愿景[9] OpenAI技术发展路径 - 数学领域被选为推理能力研究的起点因为数学是纯粹逻辑和推理的试金石 2022年MathGen团队专注训练AI模型解答高中数学竞赛题[2] - 从语言处理到逻辑推理的跨越通过三大技术结合实现：大语言模型提供知识基础强化学习通过奖惩机制优化决策测试时计算允许模型反复验证思考步骤[5] - 新技术催生"思考链"（Chain-of-Thought）方法模型展示完整解题思路而非直接输出答案研究员观察到模型具备回溯错误和情绪化反应的特征[6] 推理能力的技术本质 - 公司从计算机科学角度定义推理为"有效消耗算力得到答案"的过程强调功能实现而非形式模仿[7] - 研究文化采用自下而上模式团队只需证明想法突破性即可获得GPU和人才资源支持这种机制保障了对AGI使命的长期投入[7] - AI推理与人类思考的关系被类比为飞机与鸟类飞行不同机制可实现相同甚至更强大的结果[7] 未来发展方向 - 当前AI智能体擅长定义明确的可验证任务（如编程）但在处理主观性任务（如停车位选择或旅行规划）时仍存在瓶颈[8] - 核心挑战在于缺乏训练主观任务的数据公司已开发新的通用强化学习技术训练模型处理无标准答案的问题[8] - IMO金牌模型采用多智能体协作机制同时探索不同解题路径后选择最优解这代表未来AI演进方向[8] - 终极目标是开发能处理互联网任何事务并理解用户偏好的超级智能体所有研究均指向该方向[8] 行业竞争格局 - OpenAI曾为AI行业绝对引领者但目前面临Google、Anthropic、xAI和Meta等对手的强势竞争[9] - 行业竞争焦点转向实现"智能体未来"的时间赛跑关键在于能否在被超越前率先达到技术终点[9]

通用AI智能体

大语言模型（LLM）

强化学习（RL）

测试时计算

思考链（Chain-of-Thought

通用AI智能体

大语言模型（LLM）

强化学习（RL）

测试时计算

思考链（Chain-of-Thought

都说强化+VLA才是未来？相关工作汇总来啦

具身智能之心· 2025-08-01 00:03

视觉-语言-动作(VLA)模型与强化学习(RL)结合的新范式 - 视觉-语言-动作(VLA)模型与强化学习(RL)结合成为极具前景的新范式，能充分发挥环境试错交互和预收集次优数据的双重优势 [2] 无环境离线RL训练 - MoRE研究通过无环境离线RL训练提升四足机器人VLA模型的可扩展性，论文发表于ICRA2025 [3] - Q-Transformer通过自回归Q函数实现可扩展的离线强化学习，论文发表于2023年 [3] 有环境在线RL训练 - ReinboT通过在线RL增强机器人视觉-语言操作能力，论文发表于ICML2025 [5] - GeRM采用混合专家(MoE)架构构建通用四足机器人模型，项目已开源，论文发表于IROS2024 [5] - 离线Actor-Critic RL可扩展至大型模型，论文发表于ICML2024 [5] 基于仿真器的研究 - OctoNav致力于通用具身导航研究，项目已开源 [6] - TGRPO通过轨迹分组相对策略优化微调VLA模型 [6] - SimpleVLA-RL提供简化版VLA-RL实现，项目已开源 [6] - RFTF利用时序反馈进行具身智能体微调 [6] - VLA-RL通过可扩展RL实现通用机器人操作，项目已开源 [6] - RIPT-VLA采用交互式后训练方法改进VLA模型，项目已开源 [6] - iRe-VLA通过在线RL改进VLA模型，论文发表于RAL2025 [6] - Policy Agnostic RL支持任意类别和骨干网络的离线/在线RL微调，项目已开源 [6] - FLaRe通过大规模RL微调实现自适应机器人策略，论文发表于ICRA2025 [6] 基于真实世界的研究 - DYNA-1模型在性能和产品化方面取得突破，由Dyna公司开发 [9] - ConRFT通过一致性策略强化VLA模型微调，项目已开源 [9] - RLDG通过RL实现通用机器人策略蒸馏，项目已开源 [9] - Hume在VLA模型中引入系统2思维，项目已开源 [9] - 通过价值引导改进机器人基础模型，项目已开源 [9] RL对齐训练 - GRAPE通过偏好对齐实现机器人策略泛化，论文发表于ICLR2025 workshop [11] - SafeVLA通过约束学习实现VLA模型安全对齐，项目已开源 [12]

视觉-语言-动作（VLA）模型

强化学习（RL）

强化学习与VLA结合范式

视觉-语言-动作（VLA）模型

强化学习（RL）

强化学习与VLA结合范式

从“炫技”转向“干活”，轮子比双足更吃香......高盛总结了WAIC人形机器人最新趋势

硬AI· 2025-07-28 15:03

行业趋势 - 2025年WAIC上轮式机器人成为主流，因其更易快速部署，加速短期商业化 [1] - 行业从追求技术"完全拟人"转向优先考虑"近期商业可行性"，轮式方案在稳定性、成本和能耗上优势明显 [4] - 轮式趋势可能对行星滚柱丝杠等与双足步态强相关的零部件供应商构成利空 [4] 商业化进展 - 展会规模显著扩大：会场面积7万平方米（同比增长35%），参展商800家（增长60%），门票价格168元人民币（上涨31%） [4] - 展出机器人产品超过60款，远超去年的25款静态原型，大多数进行实时交互式任务演示 [4] - 应用场景明确化，机器人被设计用于解决特定问题，如工业、消费服务、医疗康复等领域 [6] 技术瓶颈 - 机器人手部精细操作仍是主要瓶颈，任务成功率、稳定性和操作速度距离取代人力仍有差距 [2] - 展会演示中操作失败频发，取货等简单任务需30-40秒，远慢于人类 [9] - 视觉-语言-行为（VLA）大模型与强化学习（RL）结合被视为商业化关键路径 [9] 成本与数据 - 宇树科技推出售价4万元人民币的入门级机型，但主流全尺寸机器人售价仍在40-50万元人民币区间 [11] - 高质量真实世界数据收集成本高昂，公司普遍采用10%-50%真实数据与合成数据混合的训练策略 [11] - 成本曲线下行但未现显著拐点，技术拐点临近但尚未到达强劲可见性阶段 [11] 应用场景案例 - 工业领域：电力巡检、钢铁厂"3D"环境作业（宝信软件Turin机器人） [6] - 消费服务：打冰淇淋、衣物整理、零售门店部署（盖博特系统获100家订单） [6] - 医疗康复：傅利叶智能GR-3机器人已在300家医疗机构部署 [7]

人形机器人商业化

视觉 - 语言 - 行为（VLA）大模型

强化学习（RL）

轮式机器人

GR - 3机器人

人形机器人商业化

视觉 - 语言 - 行为（VLA）大模型

强化学习（RL）

轮式机器人

GR - 3机器人

从“炫技”转向“干活”，轮子比双足更吃香......高盛总结了WAIC人形机器人最新趋势

华尔街见闻· 2025-07-28 10:02

行业商业化趋势 - 行业从技术"炫技"转向务实商业化阶段轮式底盘机器人成为主流设计加速短期落地[1] - 展会规模显著扩大会场面积7万平方米同比增长35% 参展商800家增长60% 门票价格168元/天上涨31%[2] - 机器人应用场景多元化超过60款产品亮相(去年仅25款静态原型) 覆盖制造业仓储物流消费零售和家庭养老等领域[1][2] 技术发展现状 - 移动能力取得进步实现自主导航和动态运动(如自主导航拳击热身演示) 但精细操作仍是核心瓶颈[1][5] - 任务成功率低且速度慢取物操作需30-40秒远低于人类水平即使远程遥控也存在动作复现困难[5] - 硬件创新聚焦灵巧手模型传统零部件公司6个月内推出人形机器人原型[3] 成本与数据情况 - 成本曲线下移但无显著拐点宇树科技推出4万元入门机型全尺寸机器人售价40-50万元小型机型10-30万元[1][6] - 数据收集采用混合策略真实世界数据占比10%-50%结合合成数据训练因高质量数据收集成本高昂[6] 应用场景落地 - 制造业应用针对性强电力巡检灯泡品控钢铁厂等"3D"(肮脏危险严苛)环境专用机器人[6] - 消费服务领域具体化冰淇淋制作衣物清洗房间整理纪念品制作等细分功能零售系统已获100家门店订单[6] - 医疗康复实现部署专用机器人提供医疗互动康复中心解决方案在300多家医疗机构落地[6]

机器人(SZ:300024)

视觉 - 语言 - 行为（VLA）大模型

强化学习（RL）

人形机器人

视觉 - 语言 - 行为（VLA）大模型

强化学习（RL）

人形机器人

90%被大模型吃掉，AI Agent的困局

投中网· 2025-07-25 08:33

通用Agent行业现状 - 通用Agent面临尴尬境地，90%的市场份额可能被大模型吞噬[3][4][8] - Manus等头部公司出现收入下滑和用户活跃度下降，Manus 6月访问量1781万次，较3月峰值2376万次下降25%[5][22] - Genspark发布45天即达3600万美元ARR，但6月MRR环比下跌13.58%至295万美元[20][22] 商业化与竞争格局 - 头部产品商业化表现分化：Manus 5月ARR达936万美元，但6月MRR环比暴跌51.79%至167万美元[20][21] - 国内大厂主导市场，百度、字节等通过免费策略挤压创业公司空间[26][27][29] - 收费模式对比：Manus Pro会员199美元/月限积分制（约10次/天），Claude Opus 4同价但支持不限量使用[9][11] 技术瓶颈与场景困境 - 大模型能力溢出直接冲击Agent价值，用户更倾向使用基础模型API[9][12] - 垂类Agent在企业端优势显著，可对接内部知识库实现精准输出[15][16] - 当前通用Agent核心场景局限在PPT生成、深度研究等办公功能，但存在信息错漏和低价值输出问题[24][32][34] 技术演进方向 - MiniMax采用线性注意力机制支持100万上下文输入，强化法律文书处理能力[35] - 强化学习(RL)成为突破关键，月之暗面Agent模型在HLE测试得分从8.6%提升至26.9%[36][38] - OpenAI最新Agent产品ChatGPT Agent在HLE测试创41.6%的SOTA成绩[38] 市场趋势 - 行业呈现"模型即Agent"趋势，大模型公司直接切入Agent赛道[28][29] - 开发者生态成竞争焦点，阿里、字节等通过平台推广和比赛吸引开发者[26] - 深度研究功能因成本较低成为主流方向，多模态能力成为标配[30][32]

强化学习（RL）

Artificial Intelligence

强化学习（RL）

Artificial Intelligence

90%被大模型吃掉，AI Agent的困局

36氪· 2025-07-18 10:48

通用Agent市场现状 - 通用Agent面临增长放缓困境，Manus访问量从3月2376万次下跌至6月1781万次（跌幅25%），Genspark访问量下降8% [10] - 商业化表现波动明显：Manus 5月ARR达936万美元但6月MRR环比下跌超50%至254万美元，Genspark同期ARR 3600万美元但MRR下跌13.58%至295万美元 [9][11] - 核心问题在于缺乏杀手级应用场景，当前功能集中于PPT生成、多模态处理等办公场景，用户付费持续性不足 [2][11] 竞争格局变化 - 基础模型能力溢出侵蚀市场：Claude Opus 4等模型提供不限量服务（200美元/月），相较Manus Pro会员199美元/月但限制每日约10次任务更具性价比 [4][6] - 垂类Agent在企业端形成优势：Head AI等垂类产品能对接内部知识库，准确度显著高于通用Agent [7] - 大厂主导国内市场：百度、字节等通过免费策略挤压创业公司空间，MiniMax等采用积分制但难敌大厂资源 [12][13] 技术演进方向 - 强化学习（RL）成为突破重点：月之暗面Kimi-Researcher通过RL将HLE测试得分从8.6%提升至26.9%，OpenAI ChatGPT Agent最新达41.6% [18][20] - 长文本处理能力升级：MiniMax M1模型支持100万token上下文，优于Gemini 2.5 Pro的200K上限 [17][18] - 多模态集成趋势明显：MiniMax融入视频生成能力，百度心响整合原有对话系统 [15] 商业模式挑战 - 成本转嫁矛盾突出：Manus采用积分制导致高频用户成本高企，对比基础模型API无使用次数限制 [6] - B端落地障碍：企业需求与通用Agent"黑盒"特性存在冲突，需深度集成内部系统 [7] - 大厂生态战略：阿里、字节等侧重开发者平台建设，通过比赛推广而非直接产品竞争 [11]

强化学习（RL）

Artificial Intelligence

强化学习（RL）

Artificial Intelligence

思维链开创者Jason Wei最新文章：大模型将攻克哪些领域？ | Jinqiu Select

锦秋集· 2025-07-16 07:58

大模型能力演进与验证者定律核心观点 - 大模型能力每3-6个月迭代一次，从文本生成、多模态理解扩展到复杂推理和工具调用，"模型即产品"趋势明显，模型能力边界决定产品边界 [1] - 验证者定律提出：AI解决任务的难易度与任务可验证性成正比，具备客观真实性、快速验证、可扩展验证、低噪声、连续奖励五大特征的任务将被优先攻克 [2][8][10] - 验证不对称性普遍存在（如数独验证易/解决难、数学问题验证对称、事实核查验证难），通过预研可改善不对称性 [4][6][7] 技术发展路径 - AlphaEvolve案例显示，符合验证者定律五大特性的问题（如几何优化）已被高效解决，未来所有满足条件的问题均可能被AI攻克 [13] - 可验证任务将形成"参差不齐的智能前沿"，AI在该领域表现显著优于人类，因梯度信号密集且迭代速度快 [12][14] 行业影响 - 创业者需紧密跟踪模型技术进步方向，技术敏锐度关乎生存，验证者定律为预判大模型发展提供框架 [1][2] - 科学创新领域出现范式转变：单个高价值问题的解决（train=test）优先级超过传统机器学习泛化能力 [13]

验证的不对称性

验证者定律

强化学习（RL）

验证的不对称性

验证者定律

强化学习（RL）

突发｜思维链开山作者Jason Wei被曝加入Meta，机器之心独家证实：Slack没了

机器之心· 2025-07-16 02:22

核心观点 - Meta持续从OpenAI挖走顶尖AI人才，最新目标是知名研究员Jason Wei和Hyung Won Chung [1][2] - 两位科学家在AI大模型领域贡献显著，Jason Wei是思维链（CoT）技术的主要作者，论文引用量超1.7万次 [4][6] - Hyung Won Chung是OpenAI o1系统的核心贡献者，参与多个重大项目研发 [4][29][38] 人才流动 - Jason Wei和Hyung Won Chung的Slack账号已被OpenAI停用，离职消息获多方证实 [2] - 两人均毕业于MIT，曾任职谷歌，2023年加入OpenAI后现可能同时转投Meta [6][18][27] - Jason Wei未直接回应跳槽传闻，但社交媒体评论普遍认为其将加入Meta [9][10] 技术贡献 - Jason Wei的CoT论文引用量超1.7万次，总论文引用量达77k，位列前两位的是CoT和GPT-4技术报告 [6][21] - Hyung Won Chung主导开发了OpenAI o1系列模型，强化了推理、搜索及RL策略能力 [29][38] - 两人参与OpenAI关键项目包括o1-preview、o1正式版、Deep Research及Codex mini模型训练 [18][29] 行业影响 - 人才流动反映Meta在AI领域的人才争夺策略，OpenAI面临核心团队持续流失压力 [1][41] - Jason Wei提出的RL"同策略"理念强调差异化研究路径，可能影响未来AI研发方法论 [11][12][13] - Hyung Won Chung的技术落地能力推动AI从理论到应用生态的闭环构建 [40]

思维链（CoT）

强化学习（RL）

Artificial Intelligence

思维链（CoT）

思维链（CoT）

强化学习（RL）

Artificial Intelligence

思维链（CoT）

斯坦福毕业，用RL做Agent，华人创业团队种子轮融资1200万美元

机器之心· 2025-07-09 00:50

公司概况 - Pokee AI 公开测试版正式上线，公司定位为开发交互式、个性化、高效的 AI Agent [1][4] - 公司完成 1200 万美元种子轮融资，由 Point72 Ventures 领投 [8] - 团队从 4 人核心组扩张至 7 人，计划在收入规模扩大前将团队控制在 10 人以内 [2][26] 技术架构 - 以强化学习（RL）为核心构建 AI Agent，LLM 仅作为人机交互的“UI层” [5][17] - RL 模型的动作空间直接调用工具，而非 LLM 的 Token 生成，提升任务执行泛化性 [17] - 目标是通过 No Code/Low Code 方式让第三方开发者快速搭建 AI Agent [16] 产品愿景 - 通用 Agent 的终极形态是仅需用户提供 prompt 即可自动调用工具解决问题，无需人工配置 [14][15] - 当前行业尚未完成“决策能力”第一步，后续需攻克个性化记忆（Memory）和对齐（Alignment） [19][21] - 公司认为 LLM 的进步将直接提升其 RL 架构的理解能力，两者非竞争关系 [22] 行业定位 - 创业初期 RL 方向被视为“天方夜谭”，现逐渐成为行业共识 [7][11] - 公司节奏比 Meta 快 4-5 倍，7 个月内完成产品公测和融资 [9] - AI 时代创业更轻量级，远程办公模式高效，无实体办公室 [27][28][30] 商业化路径 - 优先聚焦解决实际问题能力，再逐步优化意图理解 [22] - 商业化初期不追求完美对齐用户意图，而是通过迭代实现三步走战略 [19][21]

强化学习（RL）

Artificial Intelligence

强化学习（RL）

Artificial Intelligence

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

量子位· 2025-07-07 06:13

数学能力与模型迁移性研究 - 核心观点：数学能力强的模型不一定能将技能迁移到其他领域，强化学习(RL)训练的模型展现出显著优于监督微调(SFT)的跨任务迁移能力[1][4][19] - 数学能力与通用智能的关系：传统认知认为数学能力强的模型更智能，但最新研究表明这并非绝对[2][3] - 研究方法：评估20+模型在数学推理、其他推理(医学推理、智能体规划)和非推理任务(常识对话、指令遵循)的表现[7] - 关键指标：提出迁移能力指标(TI)，量化数学能力提升对其他任务的迁移效果(TI>0为正迁移，TI<0为负迁移)[8][9] - 实验结果：RL微调模型在数学任务平均得分达53.8，较基线提升4.1，且在其他推理任务TI达+79.6，非推理任务TI+29.3；SFT模型在非推理任务出现显著负迁移(TI最低-250.2)[10][11] - 机制分析：RL模型PCA偏移最小，KL散度更低(平均降低24.0)，token排名偏移更小，说明其能保持原有知识同时增强特定领域能力[15][16][17][18] - 行业启示：强化学习是实现可迁移推理发展的关键技术路径，对AI产品开发具有重要指导意义[19]

强化学习（RL）

监督微调（SFT）

迁移能力指标（Transferability Index

Artificial Intelligence

强化学习（RL）

监督微调（SFT）

迁移能力指标（Transferability Index

Artificial Intelligence