Workflow
强化学习
icon
搜索文档
华人学者一天发表了11篇Nature论文
生物世界· 2025-09-18 10:05
撰文丨王聪 编辑丨王多鱼 排版丨水成文 2025 年 9 月 17 日,国际顶尖学术期刊 Nature 上线了 24 篇论文 , 其中 10 篇来自华人学者 (包括作为通讯作者和第一作者的论文) 。 9 月 17 日,香港城市大学 任广禹 、中国科学院深圳先进技术研究院 张杰 、 香港岭南大学 Wu Shengfan 、 吉林大学 蒋青 作为共同通讯作者 ( Wenlin Jiang 、 Geping Qu 为 共同第一作者) , 在 Nature 期刊发表了题为: Toughened self-assembled monolayers for durable perovskite solar cells ( 用于持久钙 钛矿太阳能电池的强化自组装单分子层 ) 的研究论文 【1】 。 9 月 17 日,普林斯顿大学 Zhihao Luo (现单位为犹他大学) 作为第一作者兼共同通讯作者,在 Nature 期刊发表了题为: Transitions in dynamical regime and neural mode during perceptual decisions ( 感知决策过程中动态模式和神经模式的 ...
DeepSeek首次回应“蒸馏OpenAI”质疑
第一财经· 2025-09-18 05:34
2025.09. 18 本文字数:2259,阅读时长大约4分钟 作者 | 第一财经 刘晓洁 郑栩彤 9月18日,DeepSeek再次引发轰动。由DeepSeek团队共同完成、梁文锋担任通讯作者的 DeepSeek-R1研究论文,登上了国际权威期刊《Nature》的封面。 今年1月,DeepSeek曾在arxiv公布了初版预印本论文,相较而言,此次发布在《Nature》的版本 补充了更多模型细节,减少了描述中的拟人化说明。在补充材料中,DeepSeek提到了R1模型的训 练成本仅29.4万美元,以及回应了模型发布之初关于蒸馏OpenAI的质疑。 今年1月,有报道提到,OpenAI研究人员认为,DeepSeek可能使用了OpenAI模型的输出来训练 R1,这种方法可以在使用较少资源的情况下加速模型能力提升。 在论文的补充资料部分,DeepSeek回应了关于DeepSeek-V3-Base训练数据来源的问 题。"DeepSeek-V3-Base的训练数据仅来自普通网页和电子书,不包含任何合成数据。在预训练 冷却阶段,我们没有故意加入OpenAI生成的合成数据,此阶段使用的所有数据都是通过网页抓取 的。"DeepSe ...
DeepSeek首次回应“蒸馏OpenAI”质疑
第一财经· 2025-09-18 04:34
"没有故意加入OpenAI生成的合成数据。" 9月18日,DeepSeek再次引发轰动。由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1研究论文,登上了国际权威期刊《Nature》的封面。 今年1月,DeepSeek曾在arxiv公布了初版预印本论文,相较而言,此次发布在《Nature》的版本补充了更多模型细节,减少了描述中的拟人化说明。在补充 材料中,DeepSeek提到了R1模型的训练成本仅29.4万美元,以及回应了模型发布之初关于蒸馏OpenAI的质疑。 今年1月,有报道提到,OpenAI研究人员认为,DeepSeek可能使用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力提 升。 在论文的补充资料部分,DeepSeek回应了关于DeepSeek-V3-Base训练数据来源的问题。"DeepSeek-V3-Base的训练数据仅来自普通网页和电子书,不包含任 何合成数据。在预训练冷却阶段,我们没有故意加入OpenAI生成的合成数据,此阶段使用的所有数据都是通过网页抓取的。"DeepSeek表示。 不过,DeepSeek也说明,已观察到一些网页包含 ...
开源Agent模型榜第一名,现在是阿里通义DeepResearch
量子位· 2025-09-18 04:20
模型性能与开源情况 - 阿里开源旗下首个深度研究Agent模型通义DeepResearch 该30B-A3B轻量级模型在HLE BrowseComp-zh GAIA等多个权威评测集上取得SOTA成绩 超越OpenAI Deep Research和DeepSeek-V3.1等Agent模型 [1] - 模型 框架和方案均已全面开源 可通过Github Hugging Face和魔搭社区下载 [3] 数据策略 - 采用基于全合成数据的增量预训练和后训练策略 核心目标是不依赖昂贵人工标注即可大规模生成高质量训练数据 [4][5] - 通过Agentic CPT增量预训练为模型奠定Agent基础 开发系统化可扩展数据合成方案 形成数据生成正向循环 [6][7] - 基于知识文档 爬虫数据 知识图谱和训练轨迹等构建以实体为锚定的开放世界知识记忆 并构造多风格问题答案对覆盖真实场景 [8] - 基于多风格问题和历史轨迹构建规划 推理和决策三类动作数据 在离线环境下大规模探索推理-动作空间 消除对商业工具API调用的需求 [9] - 开发全自动合成数据生成方案 通过WebWalker WebSailor和WebShaper迭代保证数据质量和可扩展性 [11][12] 数据生成技术 - 通过知识图谱随机游走和表格数据融合从真实网站提取信息 通过策略性模糊隐藏问题信息增加难度 [14] - 将问答难度建模为可控原子操作 系统化提升问题复杂度 基于集合论形式化建模信息搜索问题 解决合成数据验证难题 [14] - 开发自动化数据引擎生成需要多学科知识和多源推理的博士级研究问题 通过工具配备和循环深化实现任务难度可控升级 [14] 推理模式 - 支持原生ReAct Mode和Heavy Mode ReAct Mode采用思考-行动-观察范式 128K上下文长度支持大量交互轮次 [15][16] - Heavy Mode基于IterResearch范式处理极端复杂多步研究任务 将任务解构为研究轮次 每轮使用上一轮关键输出重建精简工作空间 [17][18] - 迭代过程中整合关键发现形成核心报告并决策下一步行动 通过综合与重构保持认知焦点和高质量推理能力 [19][20] - 提出Research-Synthesis框架 多个IterResearch Agent并行探索同一问题后整合报告和结论以获得更准确答案 [21] 训练范式 - 革新Agent model训练流程 从Agentic CPT到RFT再到Agentic RL 打通全链路并引领新时代Agent model训练范式 [23][25] - 建立Agentic CPT→Agentic SFT→Agentic RL的端到端训练范式 重点通过强化学习完成最终优化 [27] 强化学习实践 - 基于GRPO进行定制优化 严格遵循on-policy训练范式确保学习信号与模型能力匹配 采用token级策略梯度损失函数优化目标 [30] - 使用留一法策略降低优势估计方差 选择性排除负样本避免训练不稳定和格式崩溃现象 [31] - 通过增大批次和组规模维持较小方差并提供充足监督信号 训练过程奖励呈持续上升趋势 策略熵维持高水平促进探索 [32][34] - Web环境非平稳性促进稳健自适应策略形成 无需显式熵正则化 [35] 数据质量与训练环境 - 数据质量和训练环境稳定性是Agentic RL成功的关键因素 合成数据提供一致性更高分布 使模型有效学习和拟合 [36][37] - BrowseComp人工标注数据噪声多且规模有限 模型难以提炼潜在分布 影响学习和泛化能力 [38][39] - 使用离线维基百科数据库和自定义工具套件创建模拟训练环境 通过SailorFog-QA-V2流程生成专属高质量数据 [44] - 开发统一工具沙盒确保训练评估期间工具稳定调用 通过缓存结果 重试失败调用和饱和式响应处理并发和故障 [44] - 实时优化数据并动态调整训练集 通过数据生成和模型训练的正向循环确保训练稳定性和性能提升 [44] - 基于rLLM实现异步强化学习训练推理框架 多个智能体实例并行与环境交互并独立生成轨迹 [44] 内部应用落地 - 赋能阿里巴巴内部应用包括高德出行Agent 高德地图导航+本地生活业务场景和丰富专用工具具备构建Agent土壤 [42] - 通义团队与高德团队共建合作 通义提供模型 高德提供工具和Agent链路 打造高德App助手小德的复杂查询体验 [43] - 通义法睿作为大模型原生法律智能体 升级司法DeepResearch能力 高效执行多步查询与复杂推理 [46] - 实现权威类案精准检索 法条智能匹配和专业观点深度融合 在法律问答的答案要点质量 案例引用质量和法条引用质量上领先行业 [46]
“这一空白终于被打破”,梁文锋论文登上《自然》封面
观察者网· 2025-09-18 03:27
《科技日报》则在报道中介绍称,梁文锋参与的研究表明,大语言模型的推理能力可通过纯强化学习来 提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学和STEM领域研究生水平问题等 任务上,比传统训练的大语言模型表现更好。 DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使 用了强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的 问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习 效果。在评估AI表现的各项测试中,DeepSeek-R1-Zero和DeepSeek-R1的表现都十分优异。 据智通财经9月18日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研 究论文,登上了国际权威期刊《自然(Nature)》的封面。 与今年1月发布的DeepSeek-R1的初版论文相比,本次论文披露了更多模型训练的细节,并正面回应了 模型发布之初的蒸馏质疑。DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。Nature评价 道:目前几 ...
DeepSeek论文登上《自然》封面,R1成为首个严格学术审查大模型
新浪财经· 2025-09-18 02:23
DeepSeek首次公开了仅靠强化学习,就能激发大模型推理能力的重要研究成果,从而启发全球AI研究 者。DeepSeek R1的核心创新在于采用了"纯强化学习"这一自动化试错方法,R1通过奖励模型达到正确 答案的行为来学习推理策略,而非传统模仿人类预设的推理模式。 在补充材料中,DeepSeek团队还首次公开了R1训练成本仅为29.4万美元。这个金额即使加上约600万美 元的基础模型成本,也远低于OpenAI、谷歌训练AI的成本。 今年1月,当DeepSeek R1模型发布时,其卓越的推理能力和极低的开发成本曾引发全球科技股大幅下 跌。 炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 9月18日,由DeepSeek(深度求索)团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究 论文,登上了国际权威期刊《自然(Nature)》的封面。 DeepSeek R1成为首个通过同行评议的主要大语言模型,发表在《自然》杂志的新版DeepSeek-R1论 文,与今年1月未经同行评审的初版有较大差异。 在同行评议过程中,DeepSeek团队根据评审意见减少了对模型的拟人化描述,并增 ...
刚刚,DeepSeek-R1论文登上Nature封面,通讯作者梁文锋
机器之心· 2025-09-17 17:00
机器之心报道 机器之心编辑部 太令人意外! 却又实至名归! 最新一期的 Nature 封面,竟然是 DeepSeek-R1 的研究。 也就是今年 1 月份 DeepSeek 在 arxiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。 这篇Nature论文通讯作者 正是梁文锋。 论文链接: https://www.nature.com/articles/s41586-025-09422-z 在封面的推荐介绍中,Nature 写到: 如果训练出的大模型能够规划解决问题所需的步骤,那么它们往往能够更好地解决问题。这种『推理』与人类处理更复杂问题的方式类似,但 这对人工智能有极大挑战,需要人工干预来添加标签和注释。在本周的期刊中,DeepSeek 的研究人员揭示了他们如何能够在极少的人工输入下 训练一个模型,并使其进行推理。 DeepSeek-R1 模型采用强化学习进行训练。在这种学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。结果,它学会了推 理——逐步解决问题并 ...
别克至境L7首次亮相:首发搭载高通SA8775P座舱芯片,采用“逍遥智行”辅助驾驶系统
新浪科技· 2025-09-17 14:37
至境L7拥有5032mmx1952mmx1500m车身尺寸和3000mm轴距,采用星空展翼外观和溜背造型,超静谧 NVH全车无框车门、隐藏门把手和20吋星光涡扇轮毂。银河星空展翼大灯、星轨浮光展翼尾灯,加上 车顶激光雷达,以及标志"逍遥智行"的小蓝灯;至境L7座舱采用全新纯净浮岛设计美学,内饰提供270° 皮质环绕包覆。四座全功能悬浮层座椅采用无修全粒面Nappa高级真皮包覆,副驾位搭载双120°零重力 座椅,辅以可伸长103mm的4向电动腿托和一键小憩模式。首发搭载27扬声器Buick Sound剧院级豪华音 响,全四座多模式头枕音响。 底盘方面,至境L7融汇泛亚28年来的研发积淀和全新"逍遥"架构下的底盘域科技,采用前双叉臂、后五 连杆悬架结构,后悬采用6球头设计。RTD连续阻尼可变悬架可通过毫秒级阻尼调节,主动控制车身姿 态,提升乘坐舒适性、平顺性和操纵稳定性。 责任编辑:何俊熹 新浪科技讯 9月17日晚间消息,别克高端新能源子品牌"至境"首款旗舰轿车至境L7近日首次公开亮相。 至境L7融汇别克百年积淀和百亿资源投入,基于全新别克"逍遥"超级融合整车架构打造。目前,至境 L7已到达全国别克经销商展厅,并 ...
稚晖君机器人炸场:全球首秀“真男人必会的韦伯斯特空翻”
量子位· 2025-09-17 11:06
机器人技术突破 - 灵犀X2成为全球首个完成韦伯斯特空翻的机器人 该空翻属于中高级水平动作 对腿部爆发力和协调性要求极高[1][2] - 机器人身高1.3米 全身25-31个自由度(完成空翻时去除头部 减少2个自由度)[13][14] - 采用强化学习训练Mimic策略 通过2D视频转换BVH动捕数据 再通过仿真环境训练RL policy 最终实现高精度执行 控制频率达1kHz[23][24] 运动性能表现 - 具备人类基本运动水平 可应对各种地形跑步 实现自主避障 并能快速调节全身稳定性抵抗外力冲击[16][17] - 完成空翻需要超过30个自由度协同控制 实现精确角动量分配和毫秒级姿态调整 验证了硬件高可靠性[23][25] - 基于统一Locomotion base-model训练 未来将推出zero-shot WBC(全身控制)模型[26] 产品系列布局 - 灵犀X2-W为轮式双臂作业机器人 可"盲走"上台阶并手持12斤物品 双腿六自由度 轮式模式能通过单边桥等复杂地形[28][30][31] - 灵犀X2-N支持轮式与足式双形态自由切换 适配不同地形场景需求[34] - 系列产品采用轮毂电机驱动 集成动态平衡系统和柔性材料 具备抗冲击设计[32][33] 商业化进展 - 灵犀X2预计2025年下半年规模化出货 2026年底出货量达数千台[36] - 公司定位机器人系统为1+3全栈能力:本体+运动智能/交互智能/作业智能[26] - 交互智能方面首创灵动交互概念 通过情感计算引擎和多模态Agent实现生成式动作表达 作业智能已具备实际部署水平[26]
“百分之百的中国车”,别克首款增程式轿车至境L7亮相
观察者网· 2025-09-17 10:38
产品发布与定位 - 上汽通用别克首款增程式轿车至境L7于9月15日首次公开亮相 基于"逍遥"超级融合架构打造 被公司管理层称为"目前行业最强的增程豪华轿车" [1] - 新车将于9月28日开启预售 预售前下订用户可享终身免费保养 目前已到达全国经销商展厅 [3] - 车型定位C级轿车 长宽高分别为5032/1952/1500mm 轴距3000mm 采用溜背造型设计 [11] 技术配置与性能 - 搭载"真龙"增程系统 采用252kW最大功率增程单电驱 满电0-100km加速5.9秒 80-120km/h超车加速3.8秒 [5] - 百公里综合能耗0.5L 发动机介入噪声小于0.5dB 纯电续航最长302km 综合续航里程1420km [5] - 支持130kW快充 30%至80%补能仅需18分钟 采用奥特能2.0增混专用高性能电池 纯电续航64万公里低衰减 [5][7] - 搭载高通最新一代SA8775P芯片 神经网络算力达72 TOPS 配备50吋全景AR-HUD和15.6吋智能中控屏 [9] 智能化与辅助驾驶 - 首发"逍遥智行"辅助驾驶系统 采用基于端到端"强化学习"的Momenta R6飞轮大模型 [7] - 提供"无断点"城市NOA和业内首批"不停车一键泊入"全场景辅助驾驶功能 发布会现场演示高难度自动泊车场景 [7] - 配备基于端云大模型架构的AI智能语音助手和手机场景式备车功能 [9] 底盘与舒适性配置 - 采用前双叉臂、后五连杆悬架结构 后悬采用6球头设计 集成RTD连续阻尼可变悬架支持毫秒级阻尼调节 [9] - 座舱采用270°皮质环绕包覆 四功能悬浮层座椅采用无修全粒面Nappa高级真皮 [11] - 首发搭载27扬声器Buick Sound剧院级音响和多模式头枕音响等豪华配置 [11] 研发与市场竞争 - 车型百分之百由中国定义和研发 设计理念更接近中国新势力产品 发布会前向特斯拉、小米、理想等新势力品牌致敬 [3] - 上市后将面对享界S9、阿维塔12等自主品牌新能源轿车的竞争 品牌力在新能源时代尚待验证 [13]