强化学习
搜索文档
重磅!DeepSeek 梁文锋论文登上《自然》封面,正面回应蒸馏质疑
程序员的那些事· 2025-09-20 01:10
模型技术突破与行业地位 - DeepSeek-R1是全球首个经过同行评审的主流大语言模型,打破了主流大模型尚未经过独立同行评审的空白[4] - 模型采用强化学习进行训练,通过正确解答数学问题获得高分奖励、答错受惩罚的方式,学会了逐步解决问题的推理能力[5] - 该技术使模型能够自我验证和自我反思,在给出新问题答案前检查性能,从而提高了在编程和研究生水平科学问题上的表现[5] 学术认可与技术创新 - 研究成果获得《自然》封面推荐,被描述为在极少人工输入下训练出能进行推理的模型[5] - 模型训练方法解决了人工智能需要大量人工干预添加标签和注释的极大挑战[5] - 与今年1月发布的初版论文相比,本次论文披露了更多模型训练细节并回应了模型发布之初的蒸馏质疑[4]
攻克大模型训推差异难题,蚂蚁开源新一代推理模型Ring-flash-2.0
机器之心· 2025-09-19 10:43
核心技术创新 - 蚂蚁百灵团队推出Ring-flash-2.0开源模型 采用MoE+长思维链+强化学习技术路线 总参数量100B 激活参数量6.1B [1] - 独创棒冰(icepop)算法实现双向截断和掩码修正 通过冻结训推精度差异过大的token梯度回传 解决强化学习训练稳定性问题 [6] - icepop算法相比GRPO训练方法能避免180-200步后的训练崩溃 并将训推精度差异控制在合理范围内 [8][9][10][12] - 采用两阶段强化学习方案:先通过Long-CoT SFT训练让模型学会思考 再通过RLVR强化推理能力 最后加入RLHF优化格式和安全 [14][16] 性能表现突破 - 模型在数学AIME25测试中获得86.98分 CodeForces elo分数达90.23 性能达到40B以内密集模型的SOTA水平 [1] - 支持128K长上下文处理 在4张H20显卡部署下实现200+ token/s的生成速度 相对加速比最高达7倍以上 [21] - 通过1/32专家激活比和MTP层架构优化 仅激活6.1B参数即可等效撬动40B密集模型性能 [21] - 在数学 代码和逻辑推理等多领域推理榜单取得显著突破 [1] 行业影响意义 - 模型突破2025年行业存在的"死亡曲线"问题 解决长思维链场景下MoE模型RL训练奖励崩溃的难题 [5] - 推动大模型竞争进入"高性价比"时代 核心指标从参数数量转向成本效益 [18][25] - 首次实现Long-CoT+RL技术的工程可落地 同步解决训练稳定性 推理成本和开源生态问题 [26] - 开启MoE长思考高性价比时代 为高并发场景提供低成本推理解决方案 [21][26]
具身的这几个方向,组成了所谓的大小脑算法
具身智能之心· 2025-09-19 00:03
具身智能技术框架 - 具身智能领域围绕大脑和小脑两大模块展开 大脑负责思考感知和任务规划 小脑负责高精度运动执行[3] - 细分技术包括仿真 VLA Diffusion Policy VLN 世界模型和强化学习等多个子模块[5] - VLA和世界模型在自动驾驶和具身领域同时发力 代表两个不同技术路线[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模[7] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题[7] - 第三阶段引入Diffusion Policy方法 通过扩散模型生成动作轨迹 提升策略稳定性与泛化能力[8] - 第四阶段探索VLA模型与强化学习 世界模型 触觉感知等模块融合 弥补现有局限[9] 关键技术发展 - VLA研究热点为端到端和分层两种方案 分别基于大模型和diffusion技术拓展 VLA+RL方案成为新探索方向[5] - Diffusion Policy负责学习具体动作和执行 包括状态扩散 动作空间扩散和三维空间扩散等多个方向[6] - 仿真技术发展sim2real和real2sim2real 解决真机泛化差问题 获多家具身公司认可[6] - VLN更关注目标导航 与移动操作相关联 map-free方案利于任务泛化[6] 应用与落地 - 技术发展推动人形机器人 机械臂 四足机器人等产品落地 服务于工业 家居 餐饮 医疗康复等领域[10] - 产业界重视推动具身智能从论文走向部署 对工程能力提出更高要求[14] - 需掌握在Mujoco IsaacGym Pybullet等平台完成策略训练与仿真测试的能力[14] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[14] 人才需求与培养 - 岗位呈现爆发式增长 导致许多专业人士转入具身智能领域[10] - 需要掌握具身大脑+小脑算法全体系知识点 熟悉模型优化方法[25] - 需掌握仿真 DP VLA VLA+RL模型的基本原理和实际应用[25] - 需熟悉世界模型在具身智能领域中的应用 掌握基于触觉信息的VLA主流方案[25]
纯视觉最新SOTA!AdaThinkDrive:更灵活的自动驾驶VLA思维链(清华&小米)
自动驾驶之心· 2025-09-18 23:33
自动驾驶VLA技术突破 - 提出AdaThinkDrive框架 通过双模式推理机制实现自适应思考 在简单场景采用快速回答模式 在复杂场景启用慢速思考模式[3][4][11] - 基于强化学习的自适应思考奖励策略 结合GRPO算法优化模型选择性应用CoT的行为 实现准确率与效率平衡[4][33][34] - 在Navsim基准测试中PDMS达到90.3 较最佳纯视觉基线模型提升1.7分 推理时间较"始终思考"基线减少14%[4][50][58] 技术实现细节 - 采用三阶段训练流程:大规模驾驶数据预训练获取世界知识与驾驶常识 双模式SFT数据集微调 强化学习优化自适应推理策略[17][24][31] - 输入包含前视图像、导航指令、自车状态及历史轨迹 支持思考与非思考两种推理模式联合分布输出[21][26][32] - 奖励设计包含PDMS奖励、格式奖励、端点奖励和自适应思考奖励四组件 加权整合优化策略模型[34][35][36][37][38] 性能验证结果 - 在Navsim数据集验证 较"永不思考"基线PDMS提升2.0分 较"始终思考"基线提升1.4分 在96%复杂场景启用CoT 84%简单场景采用直接预测[4][56][58] - 仅视觉输入性能与多模态方法GoalFlow相当 PDMS达90.3 Best-of-N规划策略下进一步提升至93.0创基准最高分[50][55] - 消融实验显示预训练阶段使PDMS提升1.3分 强化学习阶段进一步提升2.8分 自适应思考奖励是关键组件[63][64][65] 行业技术背景 - 自动驾驶系统向端到端架构演进 VLM模型通过大规模预训练提升场景理解能力 CoT技术增强可解释性与轨迹质量但存在简单场景过度推理问题[7][10][14] - 现有自适应CoT触发方法主要基于强化学习 分为简洁推理、动态早期终止和按需推理三类 需根据高速公路巡航或路口拥堵等不同场景复杂度调整[16][33] - InternVL3-8B作为基础模型 训练使用64块NVIDIA H20 GPU 三阶段学习率从1×10⁻⁵逐步降至2×10⁻⁶[48][52]
华人学者一天发表了11篇Nature论文
生物世界· 2025-09-18 10:05
文章核心观点 - 2025年9月17日,《自然》期刊一次性上线24篇论文,其中10篇论文的主要作者(通讯作者或第一作者)为华人学者 [2] 华人学者研究成果总结 - 香港城市大学、中国科学院深圳先进技术研究院等机构合作开发出用于持久钙钛矿太阳能电池的强化自组装单分子层技术 [2] - 中国科学院深圳先进技术研究院与东华大学合作研发出一种用于动态生物电子学的可移动长期植入式柔性微纤维 [5] - 加州大学欧文分校团队实现了原子尺度下频率相关声子各向异性的成像 [7] - Dana–Farber 癌症研究中心发现一种控制半胱氨酸分解代谢的蛋白质 [9] - 中国科学院大连物理化学研究所研发出一种室温可充电的全固态氢离子电池 [12] - 斯坦福大学团队开发出用于多模态传感和刺激的高密度柔性生物电子纤维 [14] - DeepSeek 公司发布研究,其模型DeepSeek-R1通过强化学习激励大型语言模型进行推理 [16] - 加州大学伯克利分校揭示了溶酶体膜上mTORC1激活的结构基础 [17] - 圣路易斯华盛顿大学等机构发现过氧化物酶体对支链脂肪酸的代谢可调节能量平衡 [18] - 约翰·霍普金斯大学医学院研究发现δ型谷氨酸受体是配体门控离子通道 [21]
DeepSeek首次回应“蒸馏OpenAI”质疑
第一财经· 2025-09-18 05:34
核心观点 - DeepSeek-R1研究论文登上《Nature》封面,成为全球首个经过同行评审的主流大语言模型[3][11] - 公司回应了模型发布之初关于蒸馏OpenAI的质疑,强调训练数据仅来自普通网页和电子书,不包含任何合成数据[6] - 研究公开了仅靠强化学习就能激发大模型推理能力的重要成果,提供了一种不依赖大量监督数据的新思路[11][13] 论文发布与行业影响 - DeepSeek-R1研究论文于2025年9月18日登上国际权威期刊《Nature》封面[3] - 该模型已成为全球最受欢迎的开源推理模型,Hugging Face下载量超1090万次[10] - 论文经过独立同行评审,有助于打消AI行业基准测试可被操控的疑虑[11] - 这是全球首个经过同行评审的主流大语言模型,为行业建立了公开分享的规范先例[10][11] 技术成本与效率 - DeepSeek-R1训练总成本仅29.4万美元,折合人民币约200万元[9][10] - 具体成本构成:DeepSeek-R1-Zero训练20.2万美元,SFT数据集创建1万美元,DeepSeek-R1训练8.2万美元[10] - 训练使用64×8张H800 GPU,DeepSeek-R1-Zero耗时约198小时,DeepSeek-R1耗时约80小时[10] - 即便加上训练基础模型V3的约600万美元成本,总金额仍远低于竞争对手模型的数千万美元[10] 技术方法与创新 - 研究证明仅通过大规模强化学习即可显著提升模型推理能力,无需监督微调作为冷启动[11][13] - 采用群组相对策略优化(GRPO)降低训练成本,设计奖励机制引导模型先推理后给出答案[13] - 模型在强化学习中学会自我验证和反思,通过检查性能来提高编程和科学问题的表现[13] - 开发团队使用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行微调,显著增强了小模型的推理能力[13] 数据来源争议回应 - 公司明确表示DeepSeek-V3-Base训练数据仅来自普通网页和电子书,不包含任何合成数据[6] - 在预训练冷却阶段没有故意加入OpenAI生成的合成数据,所有数据都通过网页抓取[6] - 承认可能有一些网页包含大量OpenAI模型生成的答案,导致基础模型间接受益于其他强大模型的知识[8] - 预训练数据集包含大量数学和编程相关内容,表明模型已接触到大量有推理痕迹的数据[8]
DeepSeek首次回应“蒸馏OpenAI”质疑
第一财经· 2025-09-18 04:34
学术成就与行业认可 - 公司研究成果登上国际权威期刊《Nature》封面,通讯作者为梁文锋[1] - 该论文是全球首个经过同行评审的主流大语言模型,为行业树立了先例[11] - 同行评审有助于独立评估系统风险,增强研究成果的可信度[11] 技术方法与创新 - 研究核心为仅通过强化学习激发大模型推理能力,开辟了不依赖大量监督数据的新思路[11][13] - 采用群组相对策略优化(GRPO)降低训练成本,并通过设计奖励机制引导模型优化方向[13] - 模型在强化学习中学会推理,通过自我验证和反思提高在编程和研究生水平科学问题上的表现[13] 训练成本与效率 - DeepSeek-R1模型总训练成本为294万美元,折合人民币约200万元[9] - 具体成本构成:DeepSeek-R1-Zero训练202万美元,SFT数据集创建1万美元,DeepSeek-R1训练82万美元[9] - 即便加上训练基础模型DeepSeek-V3所花费的约600万美元,总成本仍远低于竞争对手模型的数千万美元[10] 模型性能与影响 - DeepSeek-R1已成为全球最受欢迎的开源推理模型,在Hugging Face平台下载量超1090万次[11] - 开发团队使用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行微调,显著增强了小模型的推理能力[13] 数据来源与争议回应 - 公司在论文补充资料中明确表示,基础模型训练数据仅来自普通网页和电子书,不包含任何合成数据[5] - 公司承认网页可能包含大量OpenAI模型生成的答案,导致基础模型间接受益,但已针对数据污染进行处理[7] - 行业专家认为公司关于未使用OpenAI输出训练模型的回应具有说服力,其他实验室的复制尝试支持其方案的有效性[7]
开源Agent模型榜第一名,现在是阿里通义DeepResearch
量子位· 2025-09-18 04:20
模型性能与开源情况 - 阿里开源旗下首个深度研究Agent模型通义DeepResearch 该30B-A3B轻量级模型在HLE BrowseComp-zh GAIA等多个权威评测集上取得SOTA成绩 超越OpenAI Deep Research和DeepSeek-V3.1等Agent模型 [1] - 模型 框架和方案均已全面开源 可通过Github Hugging Face和魔搭社区下载 [3] 数据策略 - 采用基于全合成数据的增量预训练和后训练策略 核心目标是不依赖昂贵人工标注即可大规模生成高质量训练数据 [4][5] - 通过Agentic CPT增量预训练为模型奠定Agent基础 开发系统化可扩展数据合成方案 形成数据生成正向循环 [6][7] - 基于知识文档 爬虫数据 知识图谱和训练轨迹等构建以实体为锚定的开放世界知识记忆 并构造多风格问题答案对覆盖真实场景 [8] - 基于多风格问题和历史轨迹构建规划 推理和决策三类动作数据 在离线环境下大规模探索推理-动作空间 消除对商业工具API调用的需求 [9] - 开发全自动合成数据生成方案 通过WebWalker WebSailor和WebShaper迭代保证数据质量和可扩展性 [11][12] 数据生成技术 - 通过知识图谱随机游走和表格数据融合从真实网站提取信息 通过策略性模糊隐藏问题信息增加难度 [14] - 将问答难度建模为可控原子操作 系统化提升问题复杂度 基于集合论形式化建模信息搜索问题 解决合成数据验证难题 [14] - 开发自动化数据引擎生成需要多学科知识和多源推理的博士级研究问题 通过工具配备和循环深化实现任务难度可控升级 [14] 推理模式 - 支持原生ReAct Mode和Heavy Mode ReAct Mode采用思考-行动-观察范式 128K上下文长度支持大量交互轮次 [15][16] - Heavy Mode基于IterResearch范式处理极端复杂多步研究任务 将任务解构为研究轮次 每轮使用上一轮关键输出重建精简工作空间 [17][18] - 迭代过程中整合关键发现形成核心报告并决策下一步行动 通过综合与重构保持认知焦点和高质量推理能力 [19][20] - 提出Research-Synthesis框架 多个IterResearch Agent并行探索同一问题后整合报告和结论以获得更准确答案 [21] 训练范式 - 革新Agent model训练流程 从Agentic CPT到RFT再到Agentic RL 打通全链路并引领新时代Agent model训练范式 [23][25] - 建立Agentic CPT→Agentic SFT→Agentic RL的端到端训练范式 重点通过强化学习完成最终优化 [27] 强化学习实践 - 基于GRPO进行定制优化 严格遵循on-policy训练范式确保学习信号与模型能力匹配 采用token级策略梯度损失函数优化目标 [30] - 使用留一法策略降低优势估计方差 选择性排除负样本避免训练不稳定和格式崩溃现象 [31] - 通过增大批次和组规模维持较小方差并提供充足监督信号 训练过程奖励呈持续上升趋势 策略熵维持高水平促进探索 [32][34] - Web环境非平稳性促进稳健自适应策略形成 无需显式熵正则化 [35] 数据质量与训练环境 - 数据质量和训练环境稳定性是Agentic RL成功的关键因素 合成数据提供一致性更高分布 使模型有效学习和拟合 [36][37] - BrowseComp人工标注数据噪声多且规模有限 模型难以提炼潜在分布 影响学习和泛化能力 [38][39] - 使用离线维基百科数据库和自定义工具套件创建模拟训练环境 通过SailorFog-QA-V2流程生成专属高质量数据 [44] - 开发统一工具沙盒确保训练评估期间工具稳定调用 通过缓存结果 重试失败调用和饱和式响应处理并发和故障 [44] - 实时优化数据并动态调整训练集 通过数据生成和模型训练的正向循环确保训练稳定性和性能提升 [44] - 基于rLLM实现异步强化学习训练推理框架 多个智能体实例并行与环境交互并独立生成轨迹 [44] 内部应用落地 - 赋能阿里巴巴内部应用包括高德出行Agent 高德地图导航+本地生活业务场景和丰富专用工具具备构建Agent土壤 [42] - 通义团队与高德团队共建合作 通义提供模型 高德提供工具和Agent链路 打造高德App助手小德的复杂查询体验 [43] - 通义法睿作为大模型原生法律智能体 升级司法DeepResearch能力 高效执行多步查询与复杂推理 [46] - 实现权威类案精准检索 法条智能匹配和专业观点深度融合 在法律问答的答案要点质量 案例引用质量和法条引用质量上领先行业 [46]
“这一空白终于被打破”,梁文锋论文登上《自然》封面
观察者网· 2025-09-18 03:27
《科技日报》则在报道中介绍称,梁文锋参与的研究表明,大语言模型的推理能力可通过纯强化学习来 提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学和STEM领域研究生水平问题等 任务上,比传统训练的大语言模型表现更好。 DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使 用了强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的 问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习 效果。在评估AI表现的各项测试中,DeepSeek-R1-Zero和DeepSeek-R1的表现都十分优异。 据智通财经9月18日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研 究论文,登上了国际权威期刊《自然(Nature)》的封面。 与今年1月发布的DeepSeek-R1的初版论文相比,本次论文披露了更多模型训练的细节,并正面回应了 模型发布之初的蒸馏质疑。DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。Nature评价 道:目前几 ...
DeepSeek论文登上《自然》封面,R1成为首个严格学术审查大模型
新浪财经· 2025-09-18 02:23
公司里程碑与学术认可 - DeepSeek-R1推理模型研究论文登上国际权威期刊《自然》封面 成为首个通过同行评议的主要大语言模型[1] - 《自然》期刊在评论报道中用"里程碑式论文"和"创造历史"表达赞赏 标志着中国在大模型基础研究领域取得重要突破[2] - 在同行评审过程中 公司根据评审意见减少模型拟人化描述并增加技术细节说明 包括模型训练数据类型和安全性考虑[1] 技术创新与成本优势 - 模型核心创新在于采用"纯强化学习"方法 通过奖励模型达到正确答案的行为来学习推理策略[2] - R1训练成本仅为29.4万美元 即使加上约600万美元基础模型成本 也远低于行业巨头训练成本[2] - DeepSeek-V3.1实现混合推理架构 一个模型同时支持思考模式与非思考模式 具备更高思考效率和更强智能体能力[3] 市场影响与开源成果 - 今年1月模型发布时 其卓越推理能力和极低开发成本曾引发全球科技股大幅下跌[2] - 开源后R1在Hugging Face下载量突破1090万次 成为全球最受欢迎的开源推理模型[2] - 公司明确否认使用OpenAI模型输出进行训练的质疑 强调数据全部来自互联网且无专门蒸馏环节[1] 行业意义与数据安全 - 同行评审被《自然》杂志视为抑制AI行业过度炒作的有效方式 公司做法被视为值得欢迎的先例[3] - 为防止基准测试数据污染 公司对预训练和后训练数据都实施全面去污染措施[1] - 公司成立于2023年 由幻方量化孵化 创始团队由梁文锋领衔 成员来自顶尖高校与国际机构[3]