Workflow
Meta推理模型
icon
搜索文档
Meta万引强化学习大佬跑路,用小扎原话作为离别寄语,扎心了
36氪· 2025-08-27 06:48
核心事件 - Meta强化学习研究员Rishabh Agarwal宣布离职 决定不加入公司新组建的超级智能实验室 选择尝试全新职业道路 [1] - 另一位在Meta工作12年的资深员工同期离职 加入竞争对手Anthropic的推理团队 [15] 人才背景 - Rishabh Agarwal为AI领域顶尖研究人员 拥有谷歌学术论文引用量10,392次 h-index指数达34 [5][6] - 曾获NeurIPS 2021杰出论文奖 论文主题为深度强化学习统计不稳定性分析 [3][11] - 职业生涯覆盖谷歌Brain、DeepMind及Meta 累计7.5年从业经验 [1][7][11] - 参与谷歌Gemini 1.5(引用2,508次)、Gemma 2(引用1,224次)等核心项目开发 [3][6][11] 技术贡献 - 在Meta期间主导推理模型后训练工作 包括使用强化学习规模化训练8B参数稠密模型 达到接近DeepSeek-R1性能水平 [13][16] - 开发训练中途引入合成数据技术 为强化学习提供热启动机制 [16] - 提出高效on-policy蒸馏方法 提升模型训练效率 [16] 行业影响 - Meta近期出现资深研究人员流失趋势 与公司招聘新人才导致的内部薪酬待遇差异有关 [17] - 人工智能领域高端人才竞争加剧 头部企业间人才流动频繁 [15][17]