Workflow
强化学习
icon
搜索文档
大模型下一个飞跃?OpenAI的“新突破”:通用验证器
硬AI· 2025-08-05 16:02
通用验证器技术 - 核心技术为"证明者-验证者游戏"的对抗性训练框架,通过模型间博弈自动化验证答案质量,解决数学、创意写作等主观复杂领域的评估难题 [2][3] - 验证器规模足够小,适合大规模部署,明确"为未来的GPT部署而设计" [6] - 机制类似生成对抗网络(GANs),通过验证者判别倒逼证明者优化输出 [7] 技术来源与背景 - 技术源自OpenAI前"超级对齐"团队,由联合创始人Ilya Sutskever主导成立,团队解散后技术成果被整合至核心产品研发 [9][10] - 相关论文《证明者-验证者游戏提升大语言模型可读性》的6位作者中仅2人仍留任 [10] GPT-5应用与市场影响 - 通用验证器已应用于GPT-5开发,被视为OpenAI保持竞争优势的核心资产 [3][12] - 曾在GPT-4代码辅助功能试点的自我批判系统被正式整合至GPT-5 [12] - CEO Sam Altman称GPT-5"在几乎所有方面都比我们更聪明",加剧市场期待 [12] 技术突破与局限性 - 验证器具备通用性,在软件编程和创意写作等主观领域均展现改进 [14] - 帮助OpenAI模型在国际数学奥林匹克竞赛取得突破性成绩,可验证数学证明的每一步逻辑一致性 [14] - 面临训练数据稀缺、预训练性能收益下降、模型部署后性能衰减等挑战 [14]
OpenAI的“新突破”:通用验证器
虎嗅· 2025-08-05 07:04
在下一代大模型GPT-5备受期待之际,一项名为"通用验证器"的新技术正浮出水面,揭示了OpenAI可能 用于拉开竞争差距的"秘密武器"。 OpenAI的"通用验证器"或将直接影响GPT-5模型的市场竞争力,8月4日据科技媒体The Information援引 知情人士消息报道,这项技术已被应用于GPT-5的开发过程中。 该技术的核心机制,被比作一场"证明者-验证者游戏"。简而言之,它让一个AI模型扮演"验证者"的角 色,去检查和评判另一个"证明者"模型生成的答案。通过这种内部对抗和反馈,系统性地提升模型的输 出质量。这一自动化流程旨在解决强化学习(RL)在创意写作等主观领域或数学证明等复杂领域难以 验证的瓶颈。 OpenAI内部研究人员已在社交平台X上间接证实了相关方法的有效性。研究员Noam Brown表示,这些 技术是"通用的",能让大模型"在难以验证的任务上表现得更好"。这也标志着OpenAI正试图攻克AI商 业化应用中的核心痛点——可信度。 "证明者-验证者"的对抗游戏 "通用验证器"的技术细节,最早在OpenAI于2024年7月发表的一篇题为《证明者-验证者游戏提升大语言 模型可读性》的论文中被阐述 ...
清华叉院教授手把手教你写强化学习
机器之心· 2025-08-05 04:09
分享主题 - 分享主题为清华叉院教授手把手教你写强化学习 [7] 分享内容 - 核心例子为多轮反馈的数学解题(multi-turn math reasoning)[10] - AReaL-lite框架特点包括: a 全异步RL实现极速训练 [10] b 适配各种开源生态 [10] c 用户仅需改动极少文件实现复杂算法 [10] - 手把手教学multi-turn math RL [10] 嘉宾信息 - 吴翼:清华大学交叉信息院助理教授,博士生导师,蚂蚁强化学习实验室AReaL团队首席科学家 [10] - 傅炜:清华大学交叉信息院博士生,字节奖学金得主,AReaL项目核心成员 [10] - 梅知雨:蚂蚁强化学习实验室研究员,清华大学交叉信息院博士,AReaL项目核心成员 [10] 直播信息 - 直播时间为北京时间8月7日19:30-20:30 [8] - 建议准备4卡GPU服务器 [8] - 设有QA环节并可加群交流 [9] 主办方信息 - 机动组聚焦学术研究、工程实践与产业应用 [11] - 不定期组织学术研讨、技术交流与实战分享 [11]
奥特曼:ChatGPT只是意外,全能AI智能体才是真爱,Karpathy:7年前就想到了
36氪· 2025-08-04 09:37
核心观点 - OpenAI通过MathGen团队在AI数学推理能力上取得重大突破,成为构建通用AI智能体的基石 [2][5][6] - 强化学习(RL)与思维链(CoT)技术的结合催生了o1推理模型,推动AI智能体发展 [17][20][23] - OpenAI押注AGI长期战略,通过自下而上的创新模式实现技术领先 [25][35] - AI智能体在主观任务处理上的突破将成为行业下一竞争焦点 [31][33][35] - GPT-5将整合最新推理技术,但面临谷歌、Meta等巨头的激烈竞争 [36][38] 技术突破 - MathGen团队开发的过程监督(process supervision)训练使AI模型在国际数学奥林匹克(IMO)竞赛中夺得金牌 [2][6][20] - Strawberry项目融合大语言模型、强化学习和测试时计算技术,首创思维链(CoT)方法 [20] - o1模型采用"群体智能"策略,可同时派出多个AI智能体分头探索最优解 [35] - 新型通用强化学习技术能训练AI处理不可验证的主观任务 [33][35] 战略布局 - OpenAI将80%顶尖资源集中于o1模型研发,21名核心研究员成为行业争夺对象 [13][15] - Meta以亿美元薪酬挖走5名o1团队成员,清华校友赵晟佳任首席科学家 [15] - 公司采用"突破换取资源"机制,研究员需用实证获取支持 [25] - GPT-5将整合推理技术巩固AI智能体领域优势 [35][36] 行业影响 - AI推理能力进步速度远超预期,IMO金牌证明技术可行性 [6][35] - 编程领域已实现商业化,Codex和Cursor工具成为首批付费AI智能体 [29] - 主观任务处理成为最后技术壁垒,涉及网购、停车等场景 [31][33] - 谷歌、xAI等竞品已开始采用"群体智能"策略 [35] 未来展望 - 终极目标是开发能凭直觉理解意图的全能AI智能体 [35][39] - 行业竞争格局从OpenAI独大转变为多强争霸 [36][38] - 技术路线争议持续,但实际效果导向成为共识 [26][27]
人形机器人的进化之路|2.5万字圆桌实录
腾讯研究院· 2025-08-04 09:23
具身智能技术突破 - 端到端大模型实现从L2到L4级跃迁 Physical Intelligence公司Π系列模型展示少样本学习能力[7][8] - 数据采集技术突破 主从臂式遥操/VR遥操/光学动捕等技术提升效率 AGL Bot World项目采集百万级真机数据[9] - 仿真技术显著提升 生成式模型使仿真效果从"非常假"到"视觉逼真" 物理交互仿真仍需加强[9] 技术瓶颈与挑战 - 开放环境任务执行能力弱 复杂技能/高精度场景下故障率高 存在安全风险[6] - 硬件成本与运维问题 单台机器人成本达数十万人民币 供电持久性不足[6] - 泛化能力存在局限 Physical Intelligence Π0模型在OOD场景成功率低于产业预期[10] 主流技术范式 - VLA(视觉-语言-动作)成为共识框架 但底层架构仍处探索期 存在自回归与Diffusion两条技术路线[32][33] - 系统1(直觉响应)与系统2(规划决策)协同方案 短程任务端到端解决 长程任务需规则介入[18][19] - 触觉模态(T)增强形成VTLA框架 触觉信号使响应延迟从2-3秒提升至毫秒级[15][16] 数据生态现状 - 真实数据与仿真数据存在鸿沟 刚体仿真准确度达80%-90% 柔性体/流体仿真仍困难[36][39] - 数据规模严重不足 具身数据量仅为语言模型的1/5000 需百亿级VLA token训练量[9][57] - 互联网视频数据利用受限 缺乏动作标签与多视角信息 需清洗与伪标签生成技术[42][43] 产业化路径 - 专业场景优先落地 工厂SOP场景成熟度高于开放家庭环境 规则系统现阶段更可靠[14][51] - 消费级产品渐进发展 扫地机器人+简易操作臂组合或成突破口 价格增幅需控在数百元内[50] - 中间件接口标准化需求迫切 需建立动作抽象层兼容不同机器人本体[26][27] 技术演进方向 - 世界模型与强化学习结合 数据驱动的物理规律模拟替代传统物理引擎[35][37] - 穿戴设备数据反哺 未来消费级设备可能意外积累海量具身数据[41] - 多模态持续扩展 红外/温度等非人类模态将增强环境感知能力[29][32]
暑期打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛报名即将截止~
自动驾驶之心· 2025-08-04 07:31
竞赛概述 - 竞赛聚焦空间智能与具身智能视觉感知技术 旨在推动自动驾驶 智慧城市 机器人等场景的应用突破[4][5] - 核心目标包括推动高效高质量的空间智能技术研究 探索强化学习与计算机视觉等前沿方法创新 促进神经渲染与机器人抓取等应用落地[7] 组织架构 - 主办方包括北京科技大学 清华大学 中国科学院自动化研究所等顶尖机构 技术赞助由九章云极科技提供[9] - 指导专家团队由张兆翔 鲁继文 殷绪成等学界权威组成 确保竞赛专业度[9] 赛制设计 - 设置双赛道:空间智能赛道考核多视角航拍图像三维重建 具身智能赛道测试动态遮挡环境下的机器人抓取能力[20] - 评价体系差异化:空间智能侧重渲染质量(PSNR)与几何精度(F1-Score) 权重6:4 具身智能关注任务完成度(成功率)与执行效率(路径效率) 权重5:5[22][23] 资源支持 - 提供500-1000张1k分辨率无人机航拍图及仿真环境数据集 九章云极赞助8卡H800 GPU算力验证[14][15] - 算力优惠政策:新用户享6元/度体验价 H800 8卡月租4.2万元 显著降低参赛成本[16][17] 赛事日程 - 6月10日发布赛题 8月10日截止报名 9月30日完成评审 10月15日PRCV大会颁奖[13] - 允许2次结果更新 需提交技术报告说明方法细节 最终成绩前20名可获排名积分[26] 奖项设置 - 单赛道设一等奖(6000元+500度算力券) 二等奖(3000元+200度) 三等奖(1000元+100度) 优胜奖(500元+50度)[25][27] - 所有获奖团队将获得PRCV 2025组委会认证证书 奖金及算力券由九章云极全额赞助[27]
LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」
36氪· 2025-08-04 07:22
强化学习领域的历史回顾与核心观点 - 斯坦福AI+CS博士Joseph Suarez对强化学习进行历史回顾,其文章获得38.2万阅读量[1] - 封面曲线暗示强化学习领域研究前景经历快速上升、平缓爬升后急转直下[3] - 文章探讨强化学习历史发展及近期才真正起飞的原因,并提供个人独特视角[3] Joseph Suarez的专业背景与研究基础 - 2019年本科毕业于斯坦福大学计算机科学专业人工智能方向[5] - 2018年在OpenAI实习期间发布Neural MMO首个公开版本[5] - 博士期间创建开源计算研究平台Neural MMO,并以此作为毕业论文主题[5][6] - 早期研究经历包括在李飞飞课题组和吴恩达实验室参与项目[5] - 其研究为PufferLib工作奠定基础[9] 强化学习早期突破与潜力展示 - 2017-2019年强化学习领域出现多项重大突破[10] - OpenAI Five项目开发期间,作者在OpenAI实习并亲眼见证相关工作[10] - OpenAI的Dota 2项目使用1.68亿参数网络,在约1000个GPU上训练后击败顶尖职业选手[12][16] - 其他重要展示项目包括AlphaStar、Capture the Flag和Emergent Tool Use等[17] 强化学习衰落的原因分析 - 2019年至2022年强化学习明显走下坡路,缺乏持久突破[19] - 学术短视导致领域集体设定了不合理的标准,如使用Agent57基准测试57款雅达利游戏[19] - 基准测试以样本数为x轴而非实际运行时间,且未限制硬件使用量,导致研究耗时且成本高昂[22] - 单个游戏运行可能需要数周GPU时间,消融实验需要1万GPU小时且利用率低于5%[22][23] - 大语言模型崛起吸引了99%的天才研究人员离开强化学习领域[25][26] - 强化学习存在超参数不合理、模型无法扩展、简单任务难以转移等基础问题[27] 当前强化学习研究的挑战与重复错误 - 现代强化学习研究重现了缓慢实验周期、过度优化评价体系等历史问题[29] - 领域为已有概念创造新术语,如“多轮RL”指“不只是赌博机问题”[32] - 对早期研究的不信任源于许多已发表内容确实存在问题[32] 强化学习的新发展方向与突破 - Joseph Suarez团队转向以墙钟训练时间为标准,重视性能工程[33] - 目标是将训练吞吐量从每秒几千步提升至数百万步[33] - PufferLib 3.0在单个RTX 5090上训练速度最高可达每秒400万步[35] - 新方法使新手程序员能在几天内让强化学习在新问题上运行,显著降低门槛[35] - 实验显示简单环境的结果能泛化到更难环境,开发周期快速[35] - 长期计划回归样本效率研究,但会保持flop效率,避免低利用率问题[36]
具身智能之心强化学习交流群来啦!
具身智能之心· 2025-08-04 01:59
行业交流平台 - 行业搭建技术交流与分享平台 专注于四足 人形 机械臂相关运控领域 [1] - 目标群体为从事强化学习技术研究的专业人士 [1] - 通过微信渠道加入交流群 需备注特定格式信息 [2]
GPT-5难产内幕曝光,核心团队遭挖空,推理魔咒难破,靠英伟达续命
36氪· 2025-08-04 01:29
GPT-5研发内幕 - GPT-5未取得技术突破 不存在GPT-3到GPT-4级别的跃升 [1][8] - 面临严重数据瓶颈和技术难题 高质量网络数据日益枯竭 [1][7] - Orion项目失败 原计划作为GPT-5推出 最终降级为GPT-4.5 [5][6] - 推理模型成为新突破口 Q*技术能解决前所未见的数学问题 [16] - 内部测试显示新模型在更多算力下表现惊人 但转化为聊天版本后性能下降 [8][20] 公司融资情况 - 获得83亿美元融资 估值达3000亿美元 [3] - 本轮融资由Dragoneer投资集团以28亿美元领投 [4] - 软银牵头整个400亿美元融资计划 [4] - 融资将支持未来三年半烧掉450亿美元的计划 [10] 技术进展 - GPT-5编程和数学能力显著提升 驱动AI智能体优于前代 [10] - 开发"通用验证器" 可自动化确保模型产生高质量答案 [24] - 强化学习系统被认为具备通往AGI的潜力 [26] - o3模型理解科学知识能力大幅提升 受益于更多英伟达芯片和网络搜索能力 [19] 公司内部状况 - 核心研究者被Meta挖走 导致组织架构混乱 [1][12] - 研究副总裁公开抱怨团队变动问题 [14] - 与微软合作存在分歧 部分高级研究者抵触将成果交给微软 [12] - 公司决定回归GPT命名体系 因o系列模型造成用户困惑 [23] 未来发展 - 高管相信现有架构可达到GPT-8水平 [11] - CEO认为有望利用现有技术创造AGI [11] - GPT-5在不消耗更多算力情况下能生成更高质量代码和文本 [11] - 模型学会精准判断不同任务所需计算资源量 [11]
观察者网WAIC直播实录:AI大潮下的具身和人形,中国在跟跑还是并跑?
观察者网· 2025-08-03 05:36
行业格局与公司战略 - 美的集团通过2016年收购库卡机器人实现To B转型 布局四大板块:楼宇科技 工业技术 机器人与自动化 新兴AI业务[4] - 美的2023年启动人形机器人规划 凭借核心零部件技术积累和完整产品线切入赛道 2024年加速产品开发与应用尝试[4] - 库卡机器人主要服务汽车制造 3C 船舶 飞机制造等行业 在美的灯塔工厂应用广泛[5] - 格灵深瞳作为首家科创板AI计算机视觉上市公司 深耕金融安防领域 近期拓展体育考试训练和AI PC大模型一体机业务[5] - 真格基金重点布局AI与机器人早期项目 已投资月之暗面 Manus Genspark等具身智能企业[6][57] 技术演进路线 - 人形机器人关节数量从传统200+缩减至40个左右 强化学习算法显著降低调试难度[8][9] - 技术路线从液压传动转向电动传动 控制方式从rule-base转向learning-base 中国供应链优势推动成本下降[12] - 双足形态在动态平衡性上具优势 轮式更适合标准化场景 智元创新的轮足折叠设计尝试融合两者优势[13][16][19] - 五指灵巧手在70%场景可被两指夹具替代 但数据采集和复杂操作仍需五指结构[27][28] - 视频模型和world model成为具身智能关键技术 需解决物理世界数字化重建的高成本难题[37][43] 应用场景展望 - 工业场景将率先落地 上汽计划引入500台人形机器人进厂 聚焦搬运 装配等六大核心工序[9][15] - 家庭场景面临安全隐私等挑战 需分阶段从工业→商业→家庭推进 预计5-10年实现普及[13][66][67] - 家电机器人化成为新方向 如智能烤箱通过视觉识别和自动调节实现主动服务[64] - 高人力成本场景优先突破 如美国餐厅后厨等海外市场更具商业化潜力[58][73] 中美竞争态势 - 中国占据全球40%人形机器人专利 机电产业链优势显著 核心部件价格快速下降[69][72] - 美国在AI基础技术领先 中国在场景落地和政策支持方面占优[70][71] - 人才储备呈现"中美华人竞争"格局 中国需突破算力瓶颈并拓展全球化市场[72][73]