Workflow
Reinforcement Learning
icon
搜索文档
Z Event|SF Tech Week10.8硅谷线下会:为什么是现在?RL 的转折点与未来
Z Potentials· 2025-09-28 14:29
⚡ RL 的转折点:从"小众"到"突破口" 在过去,RL 常被视为"小众方向",更多停留在论文与模拟环境。但今天,随着 LLM 发展接近瓶颈,RL 已经成为推动 reasoning、决策智能与复杂场景交 互 的关键。今天正是 RL 的 跨界融合关键时刻:学术界、产业界、创业公司共同把 RL 从研究推向落地。 顶级嘉宾阵容 10.8号晚上6:30,在旧金山我们邀请到了横跨学界、工业界、创业圈的最强嘉宾们,共同探讨 RL 的未来: * Zeng Dong – Assistant Professor @ UCSB, 前 NVIDIA AI Researcher,前Nexusflow Co-founder(公司已经被英伟达收购)长期深耕强化学习与智能决策 * Qifei Wang – Research Lead @ DeepMind,带队推进 RL + 多模态结合的前沿探索 * Bill Zhu – CEO @ Pokee AI,前 Meta Applied RL Head,推动大规模 RL 在产品落地中的应用 * Mike Cheng – SGLang 核心贡献者,前 UC Berkeley 博士 * Andy L ...
DeepSeek 创始人梁文锋在《自然》杂志回应质疑,R1 训练真 29.4 万美金
新浪财经· 2025-09-19 00:03
学术成就与行业认可 - DeepSeek团队的研究成果登上Nature封面,论文主题为通过强化学习激发大语言模型推理能力 [1][3] - Nature发表评论文章对DeepSeek-R1的创新性给予高度评价,称其开创了AI推理新范式 [1][3] - 该模型成为全球首个经过同行评审的主流大语言模型,审稿人认为这一先例有助于系统风险评估 [5][8] 技术突破与创新 - 采用纯强化学习框架DeepSeek-R1-Zero,摒弃传统监督微调(SFT)阶段,仅通过答案正确性给予奖励信号 [10] - 训练成本仅29.4万美元(含20.2万美元Zero阶段+1万美元SFT数据创建+8.2万美元其他成本),总成本远低于行业巨头 [6][7] - 使用GRPO(组相对策略优化)算法替代传统PPO,通过组内竞争机制降低资源消耗并保持训练稳定性 [23][24] 性能表现与能力进化 - 在AIME 2024数学竞赛中,模型准确率从初始15.6%提升至77.9%,结合自洽解码技术后达86.7% [10] - 训练过程中出现"顿悟时刻",模型自主增加思考链长度(最高达数百token)并涌现自我反思、替代解法探索等高级策略 [14][16] - 经过多阶段训练后,在AlpacaEval 2.0和Arena-Hard基准测试中性能提升17%-25%,同时保持数学编程领域顶尖水平 [21] 训练方法论 - 采用四阶段训练流程:冷启动微调、第一轮RL强化推理、大规模SFT混合非推理数据、第二轮RL对齐人类偏好 [18][19] - 设计双轨奖励系统:推理任务采用基于规则的严格奖励(避免奖励投机),通用任务采用基于模型的奖励 [25][26] - 关键训练参数包括学习率3×10⁻⁶、KL散度系数0.001、批次大小512,并在8200步时将上下文长度从32K扩展至65K token [31][34] 市场反响与行业影响 - 开源后在Hugging Face平台下载量突破1090万次,成为最受欢迎模型 [5] - 引发OpenAI质疑可能使用ChatGPT输出训练,但审稿人认可其方法独立性并通过复现验证有效性 [37][39] - 被评价为"开启革命",多国实验室正尝试将该方法扩展至数学编码之外领域 [42]
xAI 巨像 2 号——全球首个吉瓦级数据中心,独特强化学习方法论及融资计划——半导体分析 --- xAI’s Colossus 2 – First Gigawatt Datacenter In The World, Unique RL Methodology, Capital Raise – SemiAnalysis
2025-09-18 13:09
**纪要涉及的行业或公司** - 公司:xA(埃隆·马斯克旗下人工智能公司)[1][2][5] - 行业:人工智能、数据中心基础设施、云计算、大模型训练与推理[2][5][10] **核心观点与论据** **1 数据中心建设与算力扩张** - xA的Coossus 2数据中心在6个月内实现200兆瓦制冷能力,支持约11万台GB200 NVL72系统运转,建设速度远超行业平均(其他公司需15个月)[18][19] - 通过与Soaris Energy合作,xA在密西西比州南黑文市部署燃气轮机,总发电容量将达1.1吉瓦(2027年Q2前),未来可能扩展至1.5吉瓦[31][34][40] - 数据中心空间规划包括改造现有仓库(100万平方英尺)为双层结构、扩建地块或采用非标准布局,以支持1吉瓦以上算力[46][48] **2 融资与资金需求** - Coossus 2项目需数百亿美元资本开支,xA尚未产生实质性外部收入,主要依赖X.com内部转账[51] - 正筹备新一轮数百亿美元融资,估值近2000亿美元,沙特主权财富基金(PIF)可能主导投资,但估值合理性受质疑(部分投资者认为难以超过Anthropic)[58] - 中东扩张可能性高:沙特、阿联酋、卡塔尔此前已投资xA及X平台,潜在融资规模达60亿美元,或用于在沙特新建数据中心[56][59][62] **3 技术能力与商业模式** - 模型性能:Grok 1.5在某些评测中接近顶尖模型,但编程能力弱于Claude Sonnet 3.5,非编程应用逊于GPT-5[85] - 企业端采用率低:因幻觉问题(如“机械希特勒事件”)及埃隆对模型的干预导致企业禁用[93] - 消费者业务优势:与X平台深度集成,支持实时信息查询和“@Grok”提问功能,用户参与度提升[94][95] - 独特强化学习(RL)方法:通过Ani项目构建多样化RL环境,探索情感智能与共情能力,可能成为AGI突破路径[99][100][101] **4 人才与运营挑战** - 员工超1000人,但文化硬核(如007工作制),导致高管和资深研究员流失(如前CFO任职不足4个月离职)[79][81] - 依赖开源推理框架SG Lang而非自建栈,通过雇佣其维护者持续优化[83][84] **其他重要但易忽略的内容** - 电力基础设施创新:在密西西比州利用退役电厂部署涡轮机,获12个月无许可运营特批,通过特斯拉Megapack储能和中压线路输电[24][28] - 财务风险:训练支出远超推理收入,需依赖X平台广告整合(如将xA技术用于广告引擎)维持现金流[106][109] - 行业竞争:OpenA、Meta、Anthropic均建设千兆瓦级集群,xA需通过超常规速度(如6个月建成)保持算力领先[6][10][13] **数据与单位换算** - 制冷能力:200兆瓦(支持11万台GB200 NVL72)[18] - 涡轮机容量:7台×5兆瓦=35兆瓦(当前运营),总规划1.1吉瓦[31][40] - 资本开支:Soaris合资公司Q2 2025支出1.12亿美元[40] - 历史投资:沙特王国控股持有xA 8亿美元股份(合并前),阿联酋Vy Capital投资7亿美元支持Twitter收购[56] **引用文档索引** - 数据中心建设:[1][2][5][6][10][13][18][19][31][34][40][46][48] - 融资与资金:[51][56][58][59][62] - 技术与商业:[85][93][94][95][99][100][101] - 人才与运营:[79][81][83][84] - 其他细节:[24][28][106][109]
刚刚,梁文锋发Nature了
36氪· 2025-09-18 10:18
以下文章来源于智东西 ,作者陈骏达 智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。 梁文锋团队正面回应蒸馏质疑, 发布详尽安全报告。 文 | 陈骏达 编辑 | 李水青 来源| 智东西(id:zhidxcom) 封面来源 | IC Photo DeepSeek再度开创历史! 9月17日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期刊《自然(Nature)》的封面。 DeepSeek-R1论文首次公开了 仅靠强化学习,就能激发大模型推理能力 的重要研究成果,启发全球AI研究者;这一模型还成为 全球 最受欢迎的开源推理 模型 ,Hugging Face下载量超1090万次。此番获得《自然》的认证,可谓是实至名归。 与此同时,DeepSeek-R1也是 全球首个经过同行评审的主流大语言模型 。《自然》在社论中高度评价道:几乎所有主流的大模型都还没有经过独立同行 评审, 这一空白"终于被DeepSeek打破"。 《自然》认为,在AI行业中,未经证实的说法和炒作已经"司空见惯",而De ...
DeepSeek-R1登上Nature封面:朝着AI透明化迈出的可喜一步
36氪· 2025-09-18 02:02
研究突破 - DeepSeek-R1 论文以封面文章形式发表于权威科学期刊 Nature 证明其研究价值获得学术界高度认可[1] - 研究团队提出无限制强化学习 RL 训练可激发大语言模型 LLM 新推理能力涌现 减少对人类标注数据的依赖[3] - 实验证明纯 RL 训练在数学 编程竞赛和 STEM 研究生水平问题等任务上表现优于传统方法训练的 LLM[3] 技术方法 - 提出群体相对策略优化 GRPO 算法 基于基础模型 DeepSeek-V3 Base 训练 DeepSeek-R1 系列模型[10] - 采用多阶段训练 pipeline 包括拒绝采样 RL 和监督微调 SFT 逐步提升模型能力[12] - RL 训练使模型自然学会输出推理过程 通过评分系统验证答案正确性进行自我改进[9] 模型表现 - DeepSeek-R1 在 GitHub 上获得 91100 个 star 显示全球开发者广泛认可[4] - 在 MMLU MMLU-Pro C-Eval GPQA Diamond 等 21 个主流基准测试中几乎全部取得更好成绩[15] - 模型展现出高级推理模式如自我反思 验证和动态策略适应 并能指导增强小型模型[16] 行业影响 - Nature 社论肯定 DeepSeek-R1 是首个经同行评审后发表的主流 LLM 推动行业透明化[5] - 同行评审机制可澄清 LLM 工作原理 评估模型真实性 避免基准测试被操控[6][17] - 开源模型使更广泛社区能理解修复缺陷 但需加强安全性测试应对潜在风险[18] - Nature 呼吁更多 AI 公司提交模型评审 用证据支持言论 验证相关主张[18]
DeepSeek登上Nature封面,梁文锋带队回应质疑,R1训练真29.4万美金
36氪· 2025-09-18 01:32
刚刚,DeepSeek-R1登上了Nature封面! 今年1月,DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文发布,如今成功登上全球顶刊封面。 通讯作者梁文锋带队,用RL为大模型推理能力开辟了全新路径。 论文地址:https://www.nature.com/articles/s41586-025-09422-z 值得一的是,补充材料首次公开了R1训练成本——294000美元,数字低到惊人。 即便是加上约600万美元的基础模型成本,也远低于OpenAI、谷歌训练AI的成本。 在封面推荐中,Nature毫不吝啬地赞扬了DeepSeek-R1的成就。 开源之后,R1在Hugging Face成为最受欢迎的模型,下载量破1090万次。关键是,它是全球首个经过同行评审的主流大模型。 | Training Costs | DeepSeek-R1-Zero | SFT data creation | DeepSeek-R1 | Total | | --- | --- | --- | --- | --- ...
让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
机器之心· 2025-09-18 01:01
在机器人与智能体领域,一个长期的挑战是:当你给机器人一个「去客厅把沙发上的书拿来」或者「沿着楼道走到门口,再右转」这一类指令时,机器人能不能 不仅「看见环境」,还能「理解指令」、「规划路径」、然后「准确执行动作」? 之前的许多方法表面上看起来也能完成导航任务,但它们往往有这样的问题:推理(reasoning)的过程不够连贯、不够稳定;真实环境中路径规划与即时控制之间 难以兼顾;在新的环境里泛化能力弱等。 Nav-R1 出场:什么是 Nav-R1? 这篇题为《Nav-R1: Reasoning and Navigation in Embodied Scenes》的新论文,提出了一个新的「身体体现式(embodied)基础模型」(foundation model),旨在让 机器人或智能体在 3D 环境中能够更好地结合「感知 + 推理 + 行动」。简单说,它不仅「看到 + 听到+开动马达」,还加入清晰的中间「思考」环节。 核心创新 1.Nav-CoT-110K:推理轨迹的冷启动(cold-start)基础 在强化学习阶段,Nav-R1 不只是简单地奖励「到达目的地」,它引入了三种互补的奖励机制,使得行为更精准、更有 ...
中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花了200万
量子位· 2025-09-18 00:51
核心成就与行业地位 - 公司成为首家登上《Nature》封面的中国大模型企业,创始人担任通讯作者,标志着中国AI研究的国际突破 [2] - 全球范围内仅有极少数企业(如DeepMind)曾通过AlphaGo、AlphaFold等成果获得类似荣誉 [3] - 模型被Nature认证为"首个经历同行评审的大型语言模型",开创行业先例 [5] - 研究被赞为"几乎影响所有在大语言模型中使用强化学习的研究",体现其方法论的开创性 [6] - 开源模型在Hugging Face下载量达1090万次,居开源模型下载量第一,GitHub Star数达91.1K [7] 训练成本与效率突破 - 总训练成本仅29.4万美元(折合人民币208万元),使用512张H800 GPU [5][10] - R1-Zero和R1分别训练198小时和80小时,按H800每GPU小时2美元租赁价计算 [10] - 具体成本分配:R1-Zero耗202K美元(101K GPU小时),SFT数据创建耗10K美元(5K GPU小时),R1耗82K美元(41K GPU小时) [11] - 660B参数规模的模型以不足30万美元成本完成,显著低于行业千万美元级投入 [12][13] 技术方法与架构创新 - 采用纯强化学习(RL)框架,仅基于最终答案正确性提供奖励信号,不依赖人工标注推理轨迹 [19] - 使用GRPO(Group Relative Policy Optimization)作为强化学习框架,提升模型推理能力 [19] - 通过多阶段训练:冷启动数据微调→强化学习训练→拒绝采样生成SFT数据→重新训练基础模型 [25][26] - 提出模型蒸馏技术,将大模型推理能力迁移至小模型(如Qwen2.5-32B),性能优于直接应用强化学习 [29] 性能表现与基准测试 - R1-Zero在AIME 2024上pass@1分数从15.6%提升至71.0%,多数表决后达86.7%,与OpenAI-o1相当 [21] - 在MATH-500测试中pass@1达95.9%,优于OpenAI-o1-0912的94.8% [23] - R1与OpenAI-o1-1217性能不相上下,在多项基准测试中达到顶尖水平 [27] - 蒸馏模型性能随参数规模提升:32B版本在AIME 2024 pass@1达72.6%,70B版本在CodeForces评级达1633 [30] 数据构建与安全性 - 数据集涵盖数学(26K题)、编程(17K题)、STEM(22K题)、逻辑(15K题)、通用(66K题)五类 [15][16][18] - 数学数据包含定量推理题和竞赛题,编程数据包含算法题和代码修复问题,STEM数据覆盖物理化生等多学科 [18] - 安全性评估显示模型固有安全水平与GPT-4o相当,结合风险控制系统后可进一步提升 [18] - 公开详细安全评估,涵盖多语言安全性、越狱攻击鲁棒性等维度 [22] 开源贡献与行业影响 - 公开R1和R1-Zero模型权重,并开源基于Qwen2.5和Llama3系列的蒸馏模型 [30] - 推动中国AI研究从顶会(如CVPR、ICLR)向Nature、Science级成果跃升 [7] - 低成本高效训练范式挑战行业"巨额投入才能打造顶级AI模型"的传统认知 [13]
DeepSeek-R1论文登上Nature封面,通讯作者梁文锋
36氪· 2025-09-18 00:45
太令人意外! 却又实至名归! 最新一期的 Nature 封面,竟然是 DeepSeek-R1 的研究。 也就是今年 1 月份 DeepSeek 在 arxiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。这篇Nature论文 通讯作者正是梁文锋。 论文链接: https://www.nature.com/articles/s41586-025-09422-z 在封面的推荐介绍中,Nature 写到: 如果训练出的大模型能够规划解决问题所需的步骤,那么它们往往能够更好地解决问题。这种『推理』与人类处理更复杂问题的方式类似,但 这对人工智能有极大挑战,需要人工干预来添加标签和注释。在本周的期刊中,DeepSeek 的研究人员揭示了他们如何能够在极少的人工输入 下训练一个模型,并使其进行推理。 DeepSeek-R1 模型采用强化学习进行训练。在这种学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。结果,它学会了推 理——逐步解决问题并揭示这些步骤——更有可能得出正确 ...
刚刚,梁文锋发Nature了
36氪· 2025-09-17 23:43
昨晚,DeepSeek再度开创历史! 智东西9月18日报道,9月17日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期刊《自 然(Nature)》的封面。 DeepSeek-R1论文首次公开了仅靠强化学习,就能激发大模型推理能力的重要研究成果,启发全球AI研究者;这一模型还成为全球最受欢迎的 开源推理模型,Hugging Face下载量超1090万次。此番获得《自然》的认证,可谓是实至名归。 与此同时,DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。《自然》在社论中高度评价道:几乎所有主流的大模型都还没有经过 独立同行评审,这一空白"终于被DeepSeek打破"。 《自然》认为,在AI行业中,未经证实的说法和炒作已经"司空见惯",而DeepSeek所做的一切,都是"迈向透明度和可重复性的可喜一步"。 《自然》杂志封面标题:自助——强化学习教会大模型自我改进 发表在《自然》杂志的新版DeepSeek-R1论文,与今年1月未经同行评审的初版有较大差异,披露了更多模型训练的细节,并正面回应了模型 发布之初的蒸馏质疑。 | https:// ...