ReAct
搜索文档
震惊!27岁姚顺雨任腾讯首席AI科学家,95后罗福莉掌舵小米大模型!00后、95后站上AI舞台中央
新浪财经· 2025-12-19 01:44
中国科技公司AI人才战略 - 腾讯官宣任命27岁的OpenAI前科学家姚顺雨为CEO/总裁办公室首席AI科学家,直接向总裁刘炽平汇报,并兼任AI Infra部及大语言模型部负责人 [2][3] - 小米官宣任命95后(不到30岁)的罗福莉为MiMo大模型负责人,据传雷军曾开出千万年薪挖角 [5][55] - 两位年轻人才(27岁和不到30岁)分别站上了腾讯和小米AI战略的最高位置,标志着中国科技巨头正以顶级薪酬和职位争夺顶尖AI人才 [12][48] AI人才市场现状与薪酬水平 - AI人才平均年薪在硅谷至少100万美金,在中国为100万人民币,骨干人才的薪酬可达平均水平的10倍,即千万级别 [8][15][63] - 顶尖AI人才薪酬极高,例如扎克伯格从OpenAI挖人曾开出4年1亿美金的价码 [15][63] - 与此形成鲜明对比的是,普通大学毕业生就业形势严峻,10人中有9人找不到学以致用的工作,找到工作的中位数月薪为5000元,年薪约6万元 [16][17][18][64][65] 颠覆性创新与年轻人才的关联性 - 历史规律显示,颠覆性科技公司多由年轻人创立,例如奥特曼28岁创立OpenAI,乔布斯(20岁)、比尔·盖茨(19岁)、扎克伯格(19岁)、马斯克(24岁)等均在年轻时创业 [7][14][61] - 年轻人创造颠覆性创新的优势在于没有“路径依赖”,敢于尝试全新事物,而成功企业如诺基亚、柯达、微软曾因路径依赖错失技术转型机遇 [21][25][68][73] - 年轻人能够“走火入魔”地钻研新事物,姚顺雨19岁起即痴迷研究语言模型,罗福莉24岁左右已在ACL顶会发表8篇论文,这种深度专注是成为顶尖专家的关键 [27][28][30][31][72][75] 技术浪潮与人才成长路径 - 把握“第一波技术浪潮”至关重要,姚顺雨和罗福莉均在2019年(AI浪潮早期)开始深耕大语言模型领域,积累了5-6年经验,因此在ChatGPT爆发时已成为专家 [32][33][38][41][77][82] - 当前“第一波”技术浪潮包括AI+机器人、AI+具身智能、AI+物理世界及AI赋能各行各业 [39][49][82] - 市场更看重“解决真实问题的能力”而非学位,姚顺雨的价值在于其在OpenAI做出了ReAct、思维树等有影响力的成果,罗福莉的价值在于其参与研发了DeepSeek-V2等产品 [43][44][83] AI时代创新人才培养方向 - 应鼓励孩子对特定领域(如AI、编程、机器人)“走火入魔”式地探索和钻研,并提供资源支持,这比“什么都学一点”更有价值 [34][35][36][40][78][79][81] - 需帮助孩子“赶上第一波技术浪潮”,即在新兴技术兴起初期便介入并深耕,从小接触AI工具,培养“AI原住民”思维 [37][40][49][78][82] - 教育重点应从单纯追求学位转向培养“解决真实问题”和“创造真实价值”的能力,通过实践项目而非仅靠课后习题来锻炼复杂问题解决能力 [44][45][50][84][89]
挑战ReAct!MetaGPT团队提出ReCode智能体新范式
机器之心· 2025-12-04 06:10
文章核心观点 - 当前主流AI智能体框架(如ReAct和带规划器的智能体)受限于固定的决策粒度,导致在复杂任务中效率低下、适应性差[2] - DeepWisdom的研究团队提出ReCode新范式,其核心洞察是“规划就是高层次的行动”,通过递归代码生成统一规划与执行,使智能体能在不同决策粒度间自由切换[3][11][12] - 实验证明,ReCode在任务成功率、推理成本和训练效率上均显著优于现有基线方法,代表了智能体范式的重大升级[6][19] 现有智能体范式的局限性 - **ReAct智能体**:采用固定的细粒度观察-动作循环,每次仅执行一个原始动作,缺乏全局规划,在复杂长期任务中易迷失方向[8][9] - **规划-执行分离的智能体**:规划器与执行器模块分离,使用不同语言(如自然语言与动作指令),损害动态适应性并限制泛化能力,且常依赖预定义模板[10] ReCode范式的关键设计与原理 - **统一表征**:用统一的代码表征表示所有决策,高层计划表示为占位符函数,低层动作表示为可执行函数[12] - **递归工作流程**:系统将任务指令转换为根占位符函数,智能体生成可混合占位符与原始动作的代码,执行时递归展开占位符直至全部变为原始动作[15][16] - **技术实现**:通过统一变量命名空间传递上下文、设置最大递归深度防止无限循环、引入纠正机制处理代码生成错误[16][17] ReCode带来的性能提升 - **推理性能提升**:在ALFWorld未见任务上成功率高达96.27%,远超ReAct的64.18%和CodeAct的85.07%;在WebShop环境中比最佳基线ADaPT提升21.9%;三个环境平均性能从基线最佳的47.4%提升至60.8%[6][20][22] - **成本效率提升**:一条ReCode轨迹的平均Token成本比ReAct低78.9%,比CodeAct低84.4%,花费不到对手的四分之一[23][24] - **训练效率提升**:在ScienceWorld环境中,ReCode仅用3500个训练样本达到88.5%奖励,而ReAct需要12833个样本(3.7倍)才能达到相似性能;使用前10%数据时,ReCode用688个样本达到44.87%性能,ReAct用3094个样本(4.5倍)仅达34.05%[24][25][26] 影响与未来展望 - 该研究在推特上获得约20万浏览量,引发学术界与工业界广泛关注[7] - ReCode的递归结构产生层次化训练数据,使模型不仅能学习执行,还能学习规划与分解,掌握可迁移的任务结构[25] - 未来研究方向包括:通过专门预训练让模型理解递归分解逻辑、用强化学习奖励高效层次化规划、引入自动课程学习等[27]
全面战胜ReAct,斯坦福全新智能体推理框架,性能提升112.5%
36氪· 2025-12-03 02:33
核心观点 - 斯坦福与MIT研究团队推出新型AI智能体推理框架ReCAP,在长上下文任务中性能全面超越当前主流框架ReAct,解决了目标漂移、上下文断层和成本爆炸等关键问题,成为极具潜力的新一代通用推理架构 [1] 技术突破与性能表现 - ReCAP在多项基准测试中大幅领先:在Robotouille(同步)任务上取得70%成功率,较ReAct的38%提升84.2%;在Robotouille(异步)任务上取得53%成功率,较ReAct的24%提升112.5% [2][14] - 在ALFWorld任务上取得91%成功率,优于ReAct的84%;在SWE-bench Verified任务上取得44.8%成功率,优于ReAct的39.58% [8][14] - 团队严格遵循pass@1(一次通过)评测原则,不使用重试或投票,证明其在真实多步环境中能更好地保持目标一致性与执行连贯性 [10] 框架核心机制 - ReCAP通过三大机制解决长上下文任务痛点:计划前瞻分解、结构化父任务再注入、滑动窗口记忆 [13] - 核心是采用一个有记忆、有反馈的递归树结构作为模型的工作记忆区,统一了序列推理和层级推理 [1][8] - 通过单一共享上下文和滑动窗口保留最新关键历史,实现了内存占用可控的深度递归,从根本上杜绝了成本爆炸 [13] 解决的问题与行业背景 - 当前大语言模型在执行复杂长上下文任务时存在三大问题:目标漂移、上下文断层、成本爆炸 [3][6] - 自2022年ReAct框架提出后,其因示例简单、高通用性和即插即用优势,成为过去三年该领域事实上的主流与标杆 [1] - 许多复杂架构因在更换评测基准时需要大幅修改示例,表现不如ReAct稳定泛用 [1] 优势与成本权衡 - ReCAP继承了ReAct示例简单、高通用性和即插即用的优势 [1] - 其总计算成本约为ReAct的三倍,主要来自计划前瞻分解机制所需的额外LLM调用 [11] - 考虑到其在关键任务上带来的性能巨幅提升与目标一致性,这种成本增加在对准确性要求高的实际应用中是可以接受的 [11] 应用潜力与未来展望 - ReCAP是除ReAct外,又一个能在具身推理和代码编辑这两种截然不同任务上都取得稳健表现的通用推理架构 [10] - 其递归规划能力可与空间智能结合,为具身智能机器人规划复杂的长期任务序列,实现动态环境中的自主规划与可靠执行 [15] - 适用于任何依赖复杂决策回路与长期上下文记忆的大型任务,如深度研究中的文献遍历与报告生成,或复杂软件工程中的代码库管理 [12]
张小珺对话OpenAI姚顺雨:生成新世界的系统
Founder Park· 2025-09-15 05:59
文章核心观点 - 语言是人类实现泛化的核心工具,是构建通用人工智能系统的最本质要素 [4][7][77] - AI Agent发展已进入下半场,重点从模型训练转向任务定义和环境设计 [5][62][63] - 创业公司最大机会在于设计新型人机交互界面,而非重复ChatGPT模式 [110][112][113] - 未来AI生态将呈现既单极又多元格局,由不同超级应用共同定义智能边界 [5][146][154] 姚顺雨背景与研究历程 - 清华姚班本科、普林斯顿博士,2019-2024年在普林斯顿攻读博士学位 [13] - 2016年接触多模态嵌入技术后转向深度学习,2018年系统性开始深度学习研究 [14][15] - 博士期间从计算机视觉转向语言模型研究,因认为语言是实现AGI的更核心方向 [15] - 专注Language Agent研究6年,2024年加入OpenAI [4][19] AI Agent技术演进 - 技术发展三阶段:符号主义AI(规则系统)→深度强化学习(环境特定)→大语言模型(泛化推理)[40][41][43] - 语言智能体与传统Agent本质区别在于具备推理能力从而实现泛化 [36][38][39] - ReAct框架成为最通用方案,实现推理与行动的协同 [26][50] - 代码环境是数字智能体最重要的"手",提供天然机器表达形式 [53][54][55] 任务与环境设计 - 当前瓶颈从方法创新转向任务定义和环境设计 [62][63] - 优秀任务需具备:结果导向奖励机制、基于规则的白盒评估、可解释性 [64][66][71] - 任务分类标准:可靠性需求型(如客服)vs创造力需求型(如证明猜想)[70][72] - 评估指标需区分Pass@k(多次尝试成功率)和Pass^k(每次成功率)[74] 产业发展与创业机会 - 模型能力溢出为创业公司创造机会,关键在于设计新型交互界面 [110][112] - 成功案例包括Cursor(编程副驾驶)、Manus(通用交互)、Perplexity(研究型搜索)[117][127][129] - 数据飞轮形成需三个条件:自主训练能力、清晰奖励信号、数据好坏分离 [123][124] - 成本不是核心瓶颈,真正关键在于找到价值超过成本的应用场景 [139][141] 未来生态展望 - OpenAI五级能力划分:聊天机器人→推理者→智能体→创新者→组织者 [44][45] - 未来12-24个月趋势:Chatbot系统自然演进为Agent系统,新型Copilot应用涌现 [165][166] - 记忆系统(Memory)将成为核心竞争壁垒,特别是上下文管理能力 [51][158][159] - 最终生态将由多个超级应用共同定义,呈现中心化与分布式并存格局 [146][152][154]
OpenAI姚顺雨1亿薪资加入腾讯?回应来了
21世纪经济报道· 2025-09-12 04:11
核心观点 - 腾讯官方否认前OpenAI研究员姚顺雨以上亿薪资入职的传闻 明确标注该报道为谣言[1][2][3] 姚顺雨背景及成就 - 姚顺雨毕业于清华姚班和普林斯顿大学计算机科学博士 2024年加入OpenAI[4] - 27岁入选《麻省理工科技评论》"35岁以下科技创新35人"中国区名单 是名单中最年轻入选者[4] - 作为OpenAI 2025年首批智能体产品operator与deep research的核心贡献者 在语言智能体方向做出基础性贡献[4] 技术贡献 - 提出ReAct方法 首次引入"推理—行动"结合的智能体范式 为创建通用性、可扩展性语言智能体奠定基础[5] - ReAct核心理念是让大语言模型在行动前先进行可解释的内在推理 再基于推理结论决策与操作 增强模型可控性并拓展实际应用能力[5] - ReAct成为世界范围内构建语言智能体的最主流方法 被学术界与工业界广泛采纳[5] 媒体报道特征 - 谣言信息由AI自媒体「第37手」生成 部分媒体援引时未注明出处[3] - 腾讯通过官方公众号"鹅厂黑板报"进行专项辟谣[1]
腾讯辟谣:OpenAI前研究员姚顺雨上亿薪资入职传闻不实
搜狐财经· 2025-09-12 03:42
腾讯人才招聘动态 - 腾讯官方辟谣OpenAI前研究员姚顺雨上亿薪资入职传闻 该消息不实[1] 姚顺雨个人背景及成就 - 姚顺雨毕业于清华大学姚班 曾任姚班联席会主席和清华大学学生说唱社联合创始人[1] - 获普林斯顿大学计算机博士学位 博士期间提出思维树框架改进决策模型并构建CoALA模块化认知架构[1] - 2024年加入OpenAI 参与智能体产品operator与deep research开发 是项目核心贡献者[1] - 2025年以27岁年龄入选《麻省理工科技评论》"35岁以下科技创新35人"中国区名单 成为最年轻入选者[1] - 主要成就为提出ReAct方法 首次引入"推理-行动"结合的智能体范式 为创建通用性语言智能体奠定基础[5] - ReAct方法成为世界范围内构建语言智能体的最主流方法 被学术界与工业界广泛采纳[5] - 曾指出AI上半场以模型和方法为中心 下半场重点转向解决实际问题[5] AI行业人才竞争态势 - Meta以超过2亿美元总薪酬招募苹果AI团队负责人庞若鸣[6] - Meta从OpenAI挖走超过10位研究员 并从Anthropic、谷歌、Scale AI等公司招募技术骨干[6] - 阿里巴巴、字节跳动、美团、京东等头部互联网公司在2026届秋招中扩大AI岗位招聘规模[6] - 截至2025年7月 人工智能新发岗位数量较去年同比增长超10倍[6] - AI相关岗位平均月薪在4.7万至7.8万元之间[6] - 顶尖高校AI方向博士应届生年薪逼近200万元[6]
OpenAI姚顺雨1亿薪资加入腾讯?腾讯回应
21世纪经济报道· 2025-09-12 01:23
公司人事动态 - 腾讯官方通过“鹅厂黑板报”公众号辟谣关于前OpenAI研究员姚顺雨以“上亿薪资入职腾讯”的传闻 [1] - 姚顺雨毕业于清华姚班并拥有普林斯顿大学计算机科学博士学位 于2024年加入OpenAI [1] 行业技术发展 - 姚顺雨提出的ReAct方法首次引入“推理—行动”结合的智能体范式 为创建具备通用性、可扩展性的语言智能体奠定了基础 [2] - ReAct的核心理念是让大语言模型在行动前先进行可解释的内在推理 继而基于推理结论去决策与操作 [2] - ReAct方法增强了模型的可控性 并极大拓展了其在各类实际领域中的适用能力 [2] - ReAct已成为世界范围内构建语言智能体的最主流方法 被学术界与工业界广泛采纳 [2] 行业人才与成就 - 姚顺雨入选《麻省理工科技评论》“35岁以下科技创新35人”中国区名单 是该名单中最年轻者 仅27岁 [1] - 姚顺雨是OpenAI在2025年首批智能体产品operator与deep research的核心贡献者 为语言智能体方向的开启和发展做出了基础性贡献 [1]
姚顺雨离职OpenAI,开启下半场
量子位· 2025-09-12 00:59
姚顺雨职业动态 - 姚顺雨已从OpenAI离职 但尚未官宣下一步去向 [2][3] - 传闻其可能加盟中国科技巨头或选择个人创业 但均未获证实 [2][53] - 有爆料称其以上亿薪资入职腾讯 但已被腾讯官方辟谣 [53] 教育背景与早期成就 - 合肥一中毕业 高考704分位列安徽省第三 进入清华姚班主修计算机科学 [4][10] - 曾获全国信息学奥林匹克竞赛(NOI)银牌(495分) [10] - 普林斯顿大学计算机博士 研究方向为自然语言处理与强化学习 [4][22] 学术研究与技术贡献 - 提出思维树(Tree of Thoughts)方法 显著提升大语言模型复杂问题解决能力 [6][39] - 开发SWE-bench评估数据集和SWE-agent开源AI程序员工具 [6][34] - 创建ReAct框架 使语言模型在交互中同步进行推理与行动 在AlFWorld任务中成功率提升至71% [36][38] - 构建WebShop模拟电商环境 验证语言智能体在真实任务中的泛化能力 [31] - 累计学术引用15253次 h指数24 i10指数29 [42] 行业观点与职业转向 - 提出AI发展进入"下半场" 重点从模型构建转向现实任务定义与评估 [46][47] - 强调语言作为实现AI泛化的核心媒介 其研究聚焦通用智能体开发 [28][30][41] - 职业规划从学术研究转向产品与商业应用 曾表达创建万亿美金级Agent公司的意向 [50][51]