强化学习
搜索文档
突发,OpenAI大神姚顺雨,任腾讯首席AI科学家
36氪· 2025-12-17 10:21
OpenAI大神姚顺雨,突然入职鹅厂,双重身份曝光,任首席AI科学家,同时兼任AI Infra部、大语言模型负责人。 今天,OpenAI科学家、清华校友姚顺雨入职腾讯,出任首席AI科学家! 个人主页暂未更新 几个月前,全网一则关于姚顺雨去向的爆料,在AI圈掀起涟漪。 如今,这个被反复讨论却始终未被官方正式的消息,终于迎来了大结局。 有媒体报道,腾讯官方宣布,要对内部大模型研发体系,进行一次力度空前的架构升级,其中包括—— 新成立AI Infra部、AI Data部、数据计算平台部,试图从算力、数据到平台能力。 一切行动,就是为了全面夯实大模型「地基」。 与此同时,一直未正式露面的姚顺雨,也首次以官方身份亮相,担任两大职务—— 任CEO/总裁办公室首席AI科学家,向腾讯总裁刘炽平汇报; 兼任AI Infra部、大语言模型部负责人,向技术工程事业群总裁卢山汇报 这位AI天才的加入,将为中国大语言模型领域带来怎样的变革? 清华姚班毕业,顶级学霸 姚顺雨本科毕业于清华大学,是姚班出身的典型「学霸」,学业生涯一路闪耀。 初中阶段,他就读于合肥45中,后升入合肥市第一中学。 2014年,他斩获「全国信息学奥林匹克竞赛」( ...
NeurIPS掀起AI人才争夺战,年薪百万美元起步
日经中文网· 2025-12-17 08:00
AI顶尖人才薪酬市场现状 - 在NeurIPS会议上 AI顶尖研究人员的薪酬水平已提高至与职业运动员不相上下[2] - 一位得克萨斯大学奥斯汀分校的强化学习方向在读博士生第一年的期望薪酬总额为200万美元 包括签约奖金和股票薪酬[4] - 在AI领域中 像强化学习这样供不应求的方向 年薪100万美元已成为企业招揽人才的起步价[5] NeurIPS会议的角色与参与者 - NeurIPS兼具学术会议与招聘会的双重功能 约150家赞助企业在会场设立展位 共同目标是为AI研发部门招募优秀人才[4] - 参与人才争夺的不仅是科技公司 美国大型对冲基金城堡投资 Citadel DE Shaw 投资公司海纳国际集团 Susquehanna International Group 等作为顶级赞助商占据了显要位置[5] - 汽车制造商方面 除了特斯拉 美国通用汽车 GM 也是近年来首次参会 中国企业如字节跳动和阿里巴巴集团也参加了会议[5] 企业招聘策略与人才流向 - 科技公司如Meta曾以高额薪酬从竞争对手挖来AI人才 在各家公司以巨额投资推进AI开发竞赛的背景下 顶尖研究人员的待遇极高[4] - 对冲基金城堡投资为了将大语言模型定制用于金融交易 正在招聘专业人才 其优势是相对于科技公司以股票报酬为主 可以提供100万美元现金[5] - 阿里巴巴旗下的蚂蚁集团和淘宝网参展主要是为了吸引在美国就读的中国研究人员回国人才[6] 研究人员心态与市场认知 - 一位博士生看到学长和朋友以约100万美元薪酬入职美国OpenAI等公司后改变了职业规划 认为高额薪酬或许只是当前泡沫现象 就业还是趁早为好[4] - 一位弗吉尼亚大学从事强化学习研究的研究人员表示 在其周围开出100万美元年薪的报价并不罕见[5] - 在美国大学就读的AI研究人员中也有很多来自中国 会场上到处都能听到中文[5]
最近收到了很多同学关于具身方向选择的咨询......
具身智能之心· 2025-12-17 00:05
【具身智能之心论文辅导重磅上线!多模态大模型/VLA/强化学习/VLN/遥操作/数采/机器人仿 真/real2sim2real/端到端/diffusion等顶会方向1V1定制化辅导】 辅导区间 CCF-A到CCF-C 先看看具身的一些方向,vln、vla、强化、还有一些real2sim2real。很多小白不知道如何下手,选择强化学 习还是vla?传统slam还是vln?哪些方向需要较大算力,哪些不需要?除此之外,什么样的本体适合自己研 究,预算不够怎么办?仿真可以吗? 对正在从事slam的同学,vln和vla都是一个比较好的切入方向。如果有机械臂,展开vla是一个不错的选择。 除此之外,没有硬件的同学可以尽量在仿真里面或者使用低成本的so-100等硬件完成实验。也有很多低成 本的科研平台,比如移动操作平台。四足和人形更适合强化,vla难度过高。 剩下就是一些方法论的问题了,有好的idea至关重要。对很多新人研究者,一个好的idea需要踩很多次坑。 如果你还是新人,不知道怎么入门,可以看看我们推出的论文辅导。 论文辅导上线了 最近收到很多小伙伴的咨询,其中不乏大模型、传统机器人、机械方向的同学。 ✅ 顶会/顶刊 ...
PPO-Clip的「盲点」被补齐了?快手提出熵比裁剪方法,从局部约束到全局稳定的关键一跃
机器之心· 2025-12-16 10:22
研究团队与背景 - 本研究由快手科技语言大模型团队完成,该团队聚焦于基础语言大模型研发、Agent RL等前沿技术创新,并已开源Klear-46B-A2.5B和Klear-Reasoner-8B等模型,其中Klear-Reasoner-8B在数学和代码基准测试上达到同参数级别模型的SOTA效果 [2] - 在大语言模型后训练阶段,强化学习是提升模型能力和对齐质量的核心范式,但广泛采用的off-policy训练范式存在分布漂移问题,会将策略推至信任域之外,导致训练不稳定 [2][4] - 主流方法PPO通过重要性采样裁剪缓解部分问题,但仅能约束已采样动作的概率变化,忽略了未采样动作的全局分布漂移 [2][6] 创新方法:熵比裁剪 - 快手研究团队提出创新的熵比裁剪方法,该方法通过约束策略熵的相对变化来稳定全局分布,为强化学习训练提供更可靠的控制手段 [2] - ERC机制受PPO-clip启发,当新旧策略间的熵变化超出允许范围时,直接对样本梯度进行截断,它并非取代PPO-Clip,而是对其形成补充 [7][8] - ERC引入了熵比指标,定义为新旧策略在同一token上熵的相对变化,该指标可以测量整个动作分布的变化,提供了对策略全局漂移的度量 [9] - 如果某个token的更新导致熵比超出预设范围,ERC会直接截断其对应的梯度,以防止全局分布和策略熵的剧烈波动,这种方法既能防止策略分布的突然崩溃,又保留了足够的探索能力 [12] 实验设计与结果 - 为验证ERC方法的稳定性和有效性,研究在多个数学推理基准上进行了系统实验,包括AIME24、AIME25、HMMT25、MATH500、AMC23和Olympiad,所有实验均基于DeepSeek-R1-Distill-Qwen模型进行 [14] - 在1.5B参数模型上,基础模型平均得分为46.3,使用GRPO后提升至50.3,使用DAPO后提升至53.4,而集成ERC的DAPO将平均得分进一步提升至55.1 [15] - 在7B参数模型上,基础模型平均得分为61.8,使用DAPO后提升至65.3,而集成ERC的DAPO将平均得分进一步提升至66.2 [15] - 集成ERC后,模型几乎在所有基准测试上的性能都得到了一致提升,在AIME25和HMMT25等更具挑战性的基准上性能增益更为显著,该方法在1.5B和7B两种参数规模上均取得了一致的改进 [15] 机制分析与优势 - 与传统裁剪方法相比,ERC引入了全局熵比约束,使得训练过程中的熵值轨迹和梯度范数更加稳定 [17] - ERC的裁剪机制有效地强化了信任域约束,被熵比边界裁剪的token主要位于信任域的边界附近,这表明ERC能够识别并限制可能导致策略偏离的更新,与PPO-Clip以互补的方式协同工作 [18] - ERC优先抑制那些过于确定性、信息增益有限的token的更新,而不会过度约束模型的探索动态,大多数被ERC裁剪的token集中在低熵区域,高熵token在优化过程中通常被保留 [20] - ERC引入的全局分布约束显著提高了裁剪比例,PPO-Clip下的裁剪比例通常保持在0.02%左右,而ERC将此数值提高了近三个数量级,达到约20% [22] - 尽管ERC的裁剪比例显著更高,但其在最终性能和训练稳定性上均持续超越PPO-Clip基线,主要移除了那些会使训练不稳定的噪声更新 [22] 对比与泛化能力 - 与KL正则化对比:ERC在AIME24和AIME25基准上均优于PPO-penalty,KL散度施加的是逐点约束,可能限制有效的策略探索,而ERC实现了分布层面的软约束,在维持稳定性的同时鼓励更高效的探索 [25] - 与熵正则化对比:ERC的表现显著优于在强化学习训练中直接加入熵惩罚项的方法,熵正则化只能缓解单向的不稳定性,而ERC的双向裁剪机制能有效应对策略演化中熵值波动的两个方向 [25] - 与序列级裁剪对比:在DeepSeek-R1-Distill-Qwen-7B上的实验表明,结合了PPO-Clip和ERC的token级裁剪方法相较于序列级裁剪方法仍具有明显优势,且ERC与序列级裁剪是正交的,可以同时使用 [25] - 更广泛的适用性:除了DAPO,将ERC集成到GPPO中同样能带来一致的性能提升,为ERC在不同RL算法中的普遍有效性提供了有力证据 [25]
许华哲,抓紧时间慢慢等具身的未来......
具身智能之心· 2025-12-16 00:02
文章核心观点 - 行业观察到具身智能领域在2025年存在发展速率与落地现实不协调的现象 具体表现为技术演示与真实世界应用之间存在差距 [6][7][8] - 行业认为中美在具身智能的发展路径上出现分野 中国公司侧重量产与商业化 美国公司侧重探索AI技术上限 行业担忧过度关注确定性量产可能错过最根本的AI技术突破 [9][10][11] - 行业主张具身智能应类比大模型 不应局限于简单、重复的落地场景 而应挑战需要强操作和高泛化能力的困难任务 以训练出高质量的通用模型 [12] - 行业指出具身智能面临数据瓶颈 其发展路径将是预训练与基于真实交互的持续学习螺旋上升 而非一次性完成数据训练 [15] 两个世界的机器梦 - 自2022年、2023年同步起步后 中美具身智能发展路径在2025年出现明显分野 [9] - 中国公司投入更多精力在量产和商业化上 而美国公司如1X Technologies(展示Gen0精细操作)、Figure(展示长程任务能力)、Sanctuary AI(展示持续工作能力)等则致力于展示AI技术上限 [9] - 行业认为机器人本质不同于汽车 AI能力是核心驱动力 需要由AI技术领跑 而非单纯追求量产 [9] - 行业呼吁在具身智能领域应建立原始创新的信心 而非仅采用跟随策略 需要容忍高失败率的探索性研发 [10] 落地简单场景还是挑战困难场景 - 行业观察发现 高价值、高重复性的场景往往已被传统自动化设备解决(例如解决90%的问题) 剩余未自动化场景通常因单价低或重复度低而不具经济性 [12] - 基于此 行业认为具身智能的定位应更接近大模型 不应将资源耗费在简单任务上 而应致力于挑战需要“强操作”和“高泛化”能力的困难场景 [12] - 挑战困难场景有助于训练出高质量的通用模型 从而更广泛地解决问题 尽管向具体场景的早期落地有其价值 可为未来积累迁移经验 [12][13] “预训练”配合“先验学习” - 具身智能面临天然的数据瓶颈 包括仿真数据不足和真机数据缺乏 这一问题将持续存在 [15] - 因此 行业发展不能遵循“先穷尽数据预训练,再探索模型”的线性路径 而需采用“预训练”与“真实世界交互学习”螺旋上升的模式 [15] - 行业认为 足够好的世界模型无法仅从人类采集的数据中训练获得 必须让机器人自主与世界交互才能构建其独有的世界模型 [15] - 行业对未来探索使用统一强化学习目标函数贯穿预训练与后训练的模式表示兴趣 [15]
我和辛顿一起发明了复杂神经网络,但它现在需要升级
36氪· 2025-12-14 23:26
而83岁的谢诺夫斯基,依然在实验室里追问那个问题。 也许没有人比他更适合回答今天AI缺失的那些碎片。他见证了神经网络从"异端"到"改变世界"的全过 程;他既懂物理学的简洁优雅,也懂生物学的复杂混沌;他和辛顿一起打开了AI的大门,又眼看着这 扇门后的世界变得越来越陌生。 1984年的一天,物理学家特伦斯·谢诺夫斯基和心理学家杰弗里·辛顿坐在实验室里,盯着黑板上的方程 发呆。那是AI的第二个寒冬,神经网络陷入僵局。人们都知道多层网络更强大,但没人知道怎么训练 它。 "如果我们把神经网络想象成一团气体呢?"谢诺夫斯基突然说。 这个疯狂的想法最终变成了玻尔兹曼机,这是一个用统计物理学重新定义"学习"的数学模型。它证明了 只要找到合适的能量函数,神经网络就能像气体从高温降到低温一样,自发地调整到最优状态。 这成为现代深度学习的理论基石之一。 但两人后续的志趣却互相有所偏离。辛顿发现了更实用的反向传播算法,带领深度学习走出寒冬,最终 迎来ChatGPT主导的AI时代。而谢诺夫斯基选择了回到神经科学实验室,用几十年时间解剖大脑的每一 个回路,试图回答那个最初的问题:大脑究竟是如何工作的? 40年后,辛顿因玻尔兹曼机获得20 ...
自动驾驶之心在招募业务合伙人!
自动驾驶之心· 2025-12-14 02:03
联系我们 作为国内自动驾驶领域创作的技术平台,我们期望能够在这波激流中贡献自己的力量,成为一个真的能 给行业带来价值的平台。 众人拾柴火焰高,我们需要更多优秀的伙伴加入我们。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 岗位说明 大家好,我是柱哥。最近收到很多小伙伴的咨询和求助,希望我们能够联系更多的技术专家分享业内最 新的动态和观点。自动驾驶已经进入下半场,行业的难点和痛点需要更多有志之士参与进来一起突破。 后面我们将陆续为大家增加圆桌访谈、实战&工业级课程、咨询等各类输出。 主要面向自动驾驶培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多学生、求职类人 群)、课程开发和原创文章创作。 主要方向 包括但不限于:自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学 习、端到端等多个方向。 待遇与合作方式,欢迎添加微信wenyirumo做进一步沟通。 ...
2025年还存活的自动驾驶公司......
自动驾驶之心· 2025-12-14 02:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 近期一个比较明显的信号,L2渗透率狂奔,L3落地在即,L4规模破局。智能驾驶学术界和工业 界关注一直都很多,像端到端、VLA、世界模型、强化学习等等技术方向都还在快速发展。秋 招期间也有很多小伙伴咨询我们业内都有哪些公司,秋招打算看一看。 相比于前两年,有一些公司已经谢幕,有一些公司在合并/收购的路上,当然也有一些新势力异 军突起。自动驾驶行业正在经历新一轮的洗牌和资源整合。今天自动驾驶之心就为大家全面梳 理下2025年智能驾驶相关的公司,有新势力、主机厂、重卡、Robotaxi、Tier1等等,为大家带 来行业的全景图,助力大家选择。 看到这里,25年智能驾驶的落地情况如何?明年的趋势在哪里? 自动之心也为大家做了一次调 研,已经放到我们的专业社区内,欢迎加入交流。 1 新势力 蔚来、小鹏、理想、小米、零跑、滴滴、威马、牛创、极氪、阿维塔、岚图、千里科技、极越等 Tier 1 2 华为、百度、大疆、中兴、腾讯(智能座舱/高精地图/仿真工具链)、上汽零速、鉴智机器人、 momenta、博世中国、麦格纳、佑驾创 ...
军事医学研究院论文登上Cell头条
生物世界· 2025-12-13 10:00
研究核心观点 - 军事医学研究院的一项新研究通过结合自动化行为追踪和计算建模,首次系统揭示了简单抑郁行为测试中隐藏的复杂认知过程,挑战了当前对抑郁行为测试的传统理解[1][6] 研究背景与现有局限 - 啮齿类动物(小鼠、大鼠)是研究精神障碍神经机制的重要基石,但其无法表达主观体验或完成复杂认知任务,限制了在抑郁症等病症中捕捉认知扭曲和信息处理异常的能力[3] - 为克服局限性,强迫游泳实验和悬尾实验等简化行为模型被广泛用于评估抑郁样行为,主要衡量指标为“不动时间”,并通常被解读为抑郁样行为的标志[3] - 这种对不动时间的狭隘关注忽略了潜在的认知机制,让人质疑这些测试究竟在衡量什么[3] 研究方法与工具 - 研究团队开发了一种名为“游泳挣扎追踪器”的自动化工具,能够以精细的时间分辨率捕捉行为轨迹[3] - 该方法结合计算模型来剖析驱动行为的认知过程[3] 研究关键发现 - 研究表明,小鼠在强迫游泳实验和悬尾实验中的行为遵循强化学习原则,包括学习、后果感知和决策制定[4] - 研究发现,强迫游泳实验和悬尾实验所涉及的行为背后的认知过程有所不同,这挑战了它们可以互换用于交叉验证的假设[4] - 回归分析确定了不同的行为阶段:早期行为主要受学习相关因素的影响,而后期阶段则更多地受到后果敏感性的影响[4] - 这些发现表明,传统的分析可能低估了学习的作用,而过分强调了对后果的敏感度[4] 研究意义与影响 - 该研究为理解抑郁样行为的认知机制提供了新视角,并强调了分析完整行为轨迹的重要性[6] - 这些发现为未来开发更精确的动物行为分析方法和抗抑郁治疗策略提供了重要理论基础[6]
南洋理工&哈佛提出OpenREAD:端到端RL统一认知与轨迹规划
自动驾驶之心· 2025-12-13 02:04
文章核心观点 - 南洋理工大学与哈佛大学联合提出名为OpenREAD的全新框架,旨在通过强化学习全面提升视觉语言大模型在自动驾驶领域的推理与规划能力[4] - 该框架的核心创新在于,通过引入大语言模型作为“评判专家”,将强化学习的应用范围从传统的、可验证的轨迹规划任务,成功拓展至“驾驶建议”、“场景分析”等开放式知识学习任务,实现了高层语义推理与低层轨迹规划的端到端协同强化微调[6] - 实验结果表明,该框架在驾驶知识评测和轨迹规划任务上均取得了当前最优的性能,证明了协同学习驾驶知识与轨迹规划的必要性和有效性[6][17][28] 方法 - **数据准备与冷启动**:为应对开放式知识学习的奖励设计挑战,研究构建了带显式思维链的驾驶知识数据,并将OmniDrive数据集转换为适用于强化学习的“思考+回答”格式[7][8][9]。随后利用带思维链的数据进行监督微调,为模型提供冷启动,使其获得基础的思考与推理能力[12] - **引入大语言模型作为奖励函数**:在强化学习微调阶段,引入Qwen3-LLM作为“评判专家”,由其判断模型生成答案与参考答案是否一致,并给予0或1的奖励[12]。同时,计算生成答案与参考答案的嵌入向量余弦相似度作为额外奖励,形成“专家判断+语义相似度”的双重奖励机制,以鼓励模型输出既正确又简洁的高质量回答[12] - **驾驶知识与轨迹规划的协同训练**:框架将强化学习同时应用于驾驶知识推理与轨迹规划任务[13]。对于轨迹规划,设计了基于轨迹误差的奖励函数,对近距离时间点的误差要求更严格,对远距离误差更宽容,以平衡安全性与规划精度[13]。在训练中,为批次内不同类型的任务分别计算奖励,最后综合用于更新模型参数,促使模型在知识推理与路径规划间建立联系[13] 实验结果 - **协同训练效果验证**:在LingoQA和NuScenes数据集上的实验表明,仅使用轨迹规划任务时,强化学习微调带来的提升有限[17]。随着引入驾驶知识数据进行协同训练,强化学习微调的效果显著增强[17]。在最终使用轨迹规划、伪轨迹分析和LingoQA数据协同训练2个周期后,强化学习微调模型在轨迹平均L2误差、碰撞率和知识评测上均超越了监督微调模型[19]。具体表现为:平均L2误差从监督微调的0.44米降至0.40米,平均碰撞率从0.18%降至0.11%,LingoQA知识评测准确率从68.0%提升至68.8%[19] - **轨迹规划性能对比**:在NuScenes开环评测中,OpenREAD的轨迹规划性能优于多种现有方法[20]。其3秒时的L2误差为0.63米,平均碰撞率为0.11%,在碰撞控制方面表现出色,保证了驾驶安全性[21]。与同样使用GRPO进行强化学习微调的AutoVLA相比,OpenREAD在轨迹误差和碰撞率控制上均更优,突显了引入驾驶知识对下游任务的重要性[20] - **驾驶知识评测对比**:在LingoQA驾驶知识评测中,OpenREAD取得了当前最优的表现,其Lingo-Judge准确率达到68.2%,超过了其他对比模型如ReCogDrive(67.8%)和WiseAD(60.4%)[22]