大语言模型

搜索文档
“这一空白终于被打破”,梁文锋论文登上《自然》封面
观察者网· 2025-09-18 03:27
《科技日报》则在报道中介绍称,梁文锋参与的研究表明,大语言模型的推理能力可通过纯强化学习来 提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学和STEM领域研究生水平问题等 任务上,比传统训练的大语言模型表现更好。 DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使 用了强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的 问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习 效果。在评估AI表现的各项测试中,DeepSeek-R1-Zero和DeepSeek-R1的表现都十分优异。 据智通财经9月18日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研 究论文,登上了国际权威期刊《自然(Nature)》的封面。 与今年1月发布的DeepSeek-R1的初版论文相比,本次论文披露了更多模型训练的细节,并正面回应了 模型发布之初的蒸馏质疑。DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。Nature评价 道:目前几 ...
梁文锋执笔的R1论文登上Nature封面!首次回应外界三大质疑
AI前线· 2025-09-18 02:28
核心突破与行业地位 - DeepSeek-R1成为首个通过完整同行评审并发表于《自然》封面的大语言模型 标志着国产AI研究迈入世界舞台并填补行业空白 [2][3][8] - 模型通过纯强化学习机制自主形成推理能力 无需依赖人工标注的思维链数据或提示工程 显著降低对人工数据的依赖 [3][12] - 在Hugging Face平台下载量突破1090万次 成为全球开源社区最受欢迎的推理模型之一 [3] 技术创新与训练方法 - 基于DeepSeek-V3 Base构建R1-Zero 通过多阶段训练结合监督微调和拒绝采样 实现强推理性能与人类偏好对齐 [3] - 采用组相对策略优化技术 模型通过自我评分和试错机制学习独立推理策略 而非模仿人类示例 [13] - 训练成本仅29.4万美元 基础模型开发成本约600万美元 总成本远低于竞争对手数千万美元投入 [6] 数据安全与透明度改进 - 预训练数据完全来自互联网 团队强调未有意进行蒸馏过程 但承认可能包含GPT-4生成文本 [6][13] - 为避免基准测试污染 清除数学数据中约600万条潜在污染样本 并引入外部风险控制机制 [6] - 安全性表现优于Claude-3.7-Sonnet和GPT-4o等主流模型 通过DeepSeek-V3实时审查 [6] 学术影响与行业评价 - 论文经过8位专家评审 收到上百条意见 最终审稿文件达64页 为论文本身三倍长度 [9] - 该方法引发行业革命 2025年几乎所有大语言模型的强化学习研究均受R1启发 [13] - 在ScienceAgentBench科学任务中 以23.53%准确率和1.87美元成本达到帕累托最优 成为性能成本平衡最佳模型之一 [15] 争议回应与验证 - 团队回应OpenAI数据使用质疑 称未直接使用其输出训练 但基础模型可能吸收互联网现有AI生成内容 [13][14] - 外部专家认为反驳具有说服力 其他实验室重复实验表明纯强化学习可实现高性能 无需依赖OpenAI样本 [14] - 论文补充训练细节和技术说明 减少拟人化描述 增加数据类型和安全性披露 [9][13]
梁文锋发表Nature封面论文:揭开DeepSeek-R1背后的科学原理——强化学习激励大模型推理能力
生物世界· 2025-09-18 01:44
核心观点 - 深度求索公司通过纯强化学习方法训练出DeepSeek-R1推理模型 显著降低算力需求并提升复杂任务表现 [1][2][6] - 该模型在数学编程竞赛及STEM领域研究生水平问题中超越传统LLM表现 并具备指导小模型推理的能力 [2][17][19] - 训练成本仅294万美元 加上基础模型总成本600万美元 远低于同类模型数千万美元花费 [2] 技术方法 - 采用纯强化学习框架(GRPO) 无需人类标注推理轨迹 仅通过最终答案正确性获得奖励信号 [6][10] - 绕过了监督微调阶段 避免人类定义推理模式限制模型探索能力 [10] - 模型自主发展出验证反思和替代方法探索等复杂推理行为 [11] 性能表现 - 在美国数学邀请赛(AIME)测试中pass@1分数从156%提升至779% 自一致性解码后达867% 超越人类参赛者平均水平 [17] - 在编程竞赛及研究生水平生物物理化学问题中表现显著 [19] - 训练过程中出现"顿悟时刻" 模型开始使用"wait"标志发展出自我监控能力 [13] 模型优化 - 通过多阶段训练框架整合拒绝采样强化学习和监督微调 解决可读性差和语言混合问题 [23][24] - 在保持推理能力同时通过非推理数据使模型行为与人类偏好对齐 [24] 能力限制 - 结构化输出和工具使用能力不及现有模型 无法使用搜索引擎和计算器 [32] - 处理简单问题时存在"过度思考"现象 主要优化中英文时可能出现语言混合 [32] - 对提示词敏感 少样本提示会降低性能 尚未广泛应用于软件工程任务 [32] 行业影响 - 研究表明预训练检查点本身具有解决复杂推理任务的潜力 关键因素在于提供困难问题可靠验证器和充足强化学习资源 [29] - 高级推理行为在强化学习过程中有机涌现 为开发更自主自适应的大语言模型铺平道路 [29] - 纯强化学习方法有望解决任何可被验证器评估的任务 未来可能在复杂推理领域超越人类能力 [29]
梁文锋论文登上《自然》封面
财联社· 2025-09-18 00:49
学术研究突破 - DeepSeek-R1推理模型研究论文于9月17日登上《自然》期刊封面 由团队共同完成且梁文锋担任通讯作者 [1] - 论文较1月初版披露更多模型训练细节 并正面回应模型发布初期的蒸馏质疑 [4] - 该模型成为全球首个经过独立同行评审的主流大语言模型 打破行业空白 [4] 行业地位与影响 - 《自然》期刊评价指出 当前几乎所有主流大语言模型均未经过独立同行评审 DeepSeek率先实现这一突破 [4]
梁文锋论文登上《自然》封面
每日经济新闻· 2025-09-18 00:42
(文章来源:每日经济新闻) 与今年1月发布的DeepSeek-R1的初版论文相比,本次论文披露了更多模型训练的细节,并正面回应了 模型发布之初的蒸馏质疑。DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。Nature评价 道:目前几乎所有主流的大模型都还没有经过独立同行评审,这一空白"终于被DeepSeek打破"。 由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期 刊《自然(Nature)》第645期的封面。 ...
8点1氪:西贝回应“公筷喂狗”事件;美联储宣布降息25个基点;DeepSeek梁文锋论文登上《自然》封面
36氪· 2025-09-18 00:19
西贝餐饮事件 - 西贝餐厅发生顾客使用公筷喂狗事件 餐厅负责人表示已丢弃涉事顾客使用过的筷子 餐具 桌布等物品 并未进入清洗流程 [4] - 餐厅当天夜间对前厅和厨房的所有餐具 厨具进行全面消杀 [4] - 温州市市场监督管理局表示国家及温州市层面暂无法律依据认定商家允许宠物入内违规 顾客用餐厅筷子喂狗属于个人行为 若未对其他顾客造成直接损害暂不涉及行政处罚 [4] 美联储货币政策 - 美联储决定将联邦基金利率目标区间下调25个基点至4.00%-4.25%之间 这是自2024年12月以来首次降息 [4] TikTok相关动态 - 特朗普第四次延长TikTok禁令宽限期 本次延迟三个月至12月16日 [5][7] 个人税务事件 - 河南李先生通过个税APP发现建筑公司持续一年为其虚假发放工资 可能涉及企业冒用个人信息虚列工资偷逃税款 税务部门已介入调查 [9] 医保政策更新 - 职工医保个人账户余额支持转账功能 参保人可将医保个人账户资金转账至近亲属医保钱包用于就医购药结算 实现近亲属间医保个人账户共济使用 [8] 餐饮行业动态 - 绿茶餐厅被曝撤下本店无预制菜现点现做广告语 外卖一次性餐具上无预制菜字样被涂黑 餐厅工作人员称烤鸡等招牌菜式是现做的 [8] - 海底捞多款儿童套餐标注部分预加工 客服回应称部分预加工产品由中央厨房统一生产并标准化配送至门店再进行最终烹制 旨在确保餐品安全与口味品质稳定性 [12][13] 上市公司薪酬事件 - 清华学霸吴舰被曝2022年薪资达2350万美元(约合人民币1.67亿元) 正面临美国证券交易委员会和美国司法部民事刑事双重起诉 被指控犯有电汇欺诈 证券欺诈和洗钱罪 目前处于在逃状态 [7][8] 人工智能与科技 - DeepSeek-R1推理模型研究论文登上《自然》期刊封面 是全球首个经过同行评审的主流大语言模型 [6][7] - 上汽荣威M7 DMH正式上市 全球首搭豆包深度思考大模型 限时售价8.58万元起 可实现行业领先场景覆盖率的模糊语义理解和记忆贯穿能力 [23] 企业融资动态 - 蔚来集团成功完成11.6亿美元融资 通过公开增发新股进行 资金将用于智能电动汽车核心技术研发 新一代技术平台及车型开发 充换电基础设施扩展 [20] - AI芯片初创公司Groq完成7.5亿美元新一轮融资 投后估值达69亿美元 由Disruptive领投 贝莱德 路博迈集团等机构参与投资 [20] - 青昀新材完成数亿元C轮融资 由元禾璞华领投 资金将用于新一代鲲纶超材料研发 全球化产能扩张及产业链生态建设 [20] - 一星机器人完成数亿元种子轮融资 投资方包括BV百度风投 同创伟业 银河通用 蓝黛科技等机构 [21][22] 消费与零售 - 蜜雪冰城多个门店出现柠檬水断货 因进口柠檬受天气影响延期到港 同时川渝柠檬进入采摘期需储存优化口感 导致部分区域供应紧张 柠檬价格从去年9月7.83元/公斤上涨至今年9月15元/公斤 [15] - 全国国庆文旅消费月将启动 各地将发放超过3.3亿元消费补贴 文化和旅游部协调中国银联 金融机构 平台企业推出消费券 支付满减等优惠 [10] 企业治理与薪酬 - 匹克被曝全员降薪 总部员工工资5000-10000元降薪10% 10000-20000元降薪20% 20000元以上降薪30% 直营分公司办公室职员降薪50% 终端店铺员工未调整 董事长表示整体降薪幅度不到10% [11] - 日本航空公司因机长执飞前饮酒导致三个航班严重延误 37名高管将被降薪 社长鸟取三津子降薪30%两个月 负责安全监督和航班运营高管降薪20%一个月 其余高管降薪10%一个月 [14] 行业数据与趋势 - 中国自行车社会保有量超过2亿辆 电动自行车社会保有量约3.8亿辆 合计约5.8亿辆 全国每日因两轮出行减少碳排放量约1万吨 相当于节省汽油约660万升 [18] - 中国现存月饼相关企业达2.01万家 今年年内新增500余家 广东以超2000家注册量位居第一 河南 广西紧随其后 月饼行业正从季节性刚需向全年消费场景转型升级 [24] 支付与金融科技 - 谷歌支付服务将在沙特全面推出 沙特中央银行与蚂蚁国际签署协议 计划于2026年实现沙特境内可用支付宝支付服务 两家公司都将依托沙特国家支付系统mada完成支付受理 [9] 港股市场政策 - 香港特区政府加大鼓励生育力度 从2026/27课税年度起 在每名子女出生后首两年 纳税人可就该名子女享有双倍额外免税额(26万港元) [14] 企业高层变动 - 雀巢董事会主席保罗·布克因投资者施压提前卸任 原定2026年4月卸任 现将于10月1日由帕布罗·伊斯拉接替 投资者认为其在一年内连续两任CEO非正常离职事件中负有责任 [16] 汽车行业动态 - 合众新能源管理人否认山子高科重组哪吒汽车 山子高科相关工作人员称公司仅是意向投资人之一 合众新能源破产重整案第一次债权人会议已召开 尚未确定重组投资人 [16] 企业招聘动态 - 西贝餐饮集团招聘品牌传播主管月薪10-13K 引发讨论 有观点认为薪酬在一线餐饮大企中不算高 另有媒体人透露在传统消费品牌里待遇不错 随后西贝品牌传播主管 法务主管 内容营销总监等多岗位已停止招聘 [16][17][18] 宏观经济数据 - 2025年1-8月全国一般公共预算收入148198亿元 同比增长0.3% 其中全国税收收入121085亿元 同比微增0.02% 这是今年以来全国税收收入累计增速首次由负转正 [11] 股市表现 - 美股三大指数收盘涨跌不一 道指涨0.57% 纳指跌0.33% 标普500指数跌0.1% 热门中概股多数上涨 百度涨超11% 蔚来涨超6% 拼多多涨超4% 阿里巴巴 哔哩哔哩 理想汽车涨超2% [19]
早报|美联储宣布降息25个基点;清华学霸晒1.67亿元年薪引调查;多家餐饮店抹掉无预制菜字样;携程被约谈
虎嗅APP· 2025-09-18 00:17
美联储货币政策 - 美联储宣布降息25个基点 将联邦基金利率目标区间下调至4.00%-4.25% 符合市场预期 [2] - 此为2024年12月后时隔9个月再次降息 [3] - 市场普遍预期此次降息将影响全球资本市场流动性及美元汇率走势 [29] 中国平安组织调整 - 公司澄清搬离上海传闻 称部分员工回迁深圳系因监管要求注册地与办公场所一致 并非撤离上海 [4][5] - 涉及调整的为注册地在深圳的平安人寿总公司员工 注册地在上海的平安资管、平安养老险等子公司均保持不变 [5] - 此次调整基于《保险法》《公司法》等监管规定 属治理架构调整 [6] 宁德时代钠离子电池技术 - 公司钠离子电池能量密度达175Wh/kg 具备超500公里纯电续航能力 可覆盖超40%国内乘用车市场需求 [7] - 电池低温性能、碳足迹及安全性能优于锂离子电池 有助于拓宽新能源应用区域边界 [7] - 钠电乘用车动力电池正与客户推进开发 预计2026年实现批量供货 [8] 特朗普延长TikTok禁令 - 特朗普签署行政令 将TikTok禁令执行宽限期延长3个月至12月16日 为第四次延期 [11] - 中美经贸团队近期在马德里就TikTok等经贸问题进行坦诚深入沟通 [12] - 中国外交部回应称主管部门已介绍相关情况 未提供具体评论细节 [23][24] 餐饮行业预制菜争议 - 绿茶餐厅被曝撤下"无预制菜"广告语 外卖餐具相关字样被涂黑 喜家德门店亦遮盖"拒绝预制"标语 [15] - 海底捞回应儿童餐"部分预加工"标注 称产品由中央厨房统一生产配送至门店最终烹制 以确保安全与口味稳定性 [21][22] - 西贝回应顾客用公筷喂狗事件 称已丢弃相关餐具并全面消杀 提及儿童餐累计销售超4000万份 [25] 匹克集团薪酬调整 - 公司否认全员降薪 称调整针对亏损部门和高薪岗位 幅度10%-50% 低收入员工工资补足至3000元 [16] - 整体降薪幅度不到10% 保留绩效奖金制度 [16] - 2025年1-8月直营业务亏损逾1.3亿元 外销业务增长稳定 [16] 华为全联接大会 - 大会主题为"跃升行业智能化" 将发布昇腾AI芯片、鲲鹏计算等数智基础设施新品 [28] - 探讨AI在制造业、医疗等核心领域的应用 [28] 天津医保耗材新规 - 《天津市基本医疗保险医用耗材目录(2025年)》生效 包含3062种医用耗材 [30] - 1896种甲类耗材首次设定医保支付标准 推动部分高价耗材降价 [30] iPhone Air技术创新 - 通过取消实体SIM卡槽和采用高硅负极材料电池 在5.6mm超薄机身中实现27小时视频播放续航 [31] - 电芯密度提升至780Wh/L 较iPhone 16系列提高约18% [31] - iOS 26"适应性电源模式"可动态调整功耗 实测最多提升6%-8%电量 [32] DeepSeek科研突破 - DeepSeek-R1推理模型研究论文登上《自然》封面 为全球首个经同行评审的主流大语言模型 [10] - 论文披露更多模型训练细节 回应蒸馏质疑 [10]
8点1氪|西贝回应“公筷喂狗”事件;美联储宣布降息25个基点;DeepSeek梁文锋论文登上《自然》封面
36氪· 2025-09-18 00:06
西贝餐饮事件 - 西贝餐厅因顾客使用公筷喂狗引发卫生争议 涉事餐具已全部丢弃并进行全面消杀 [1] - 温州市市场监督管理局表示国家及地方层面暂无法律依据认定商家允许宠物入内违规 顾客喂狗属个人行为且未造成直接损害暂不涉及行政处罚 [1] - 西贝品牌传播主管等岗位已停止招聘 月薪10-13K的招聘信息由企业官方发布且真实有效 [10][11][12] 美联储政策动向 - 美联储宣布降息25个基点 联邦基金利率目标区间降至4.00%-4.25% 为2024年12月以来首次降息 [1] 人工智能与科技 - DeepSeek团队梁文锋通讯作者的DeepSeek-R1推理模型论文登上《自然》封面 披露更多训练细节并回应蒸馏质疑 [2][3] - DeepSeek-R1成为全球首个经过同行评审的主流大语言模型 Nature评价其打破主流模型未独立评审的空白 [3] - AI芯片初创公司Groq完成7.5亿美元新一轮融资 投后估值达69亿美元 由Disruptive领投且三星等机构继续参与 [14] 企业动态与融资 - 蔚来集团完成11.6亿美元融资 资金将用于智能电动汽车研发、技术平台开发及充换电基础设施扩展 [14] - 青昀新材完成数亿元C轮融资 由元禾璞华领投 资金用于新一代鲲纶超材料研发及全球化产能扩张 [14] - 一星机器人完成数亿元种子轮融资 投资方包括BV百度风投、同创伟业及银河通用等产业化投资者 [15] 行业政策与消费 - 全国国庆文旅消费月启动 各地发放超3.3亿元消费补贴 银联及金融机构推出消费券和支付满减优惠 [6] - 香港加大鼓励生育力度 初生子女可享两年额外免税额26万港元 适用于2026/27课税年度末所有未满两岁子女 [9] - 职工医保个人账户余额支持转账至近亲属医保钱包 实现跨省医保个人账户共济使用 [4][5] 公司经营与市场 - 匹克被曝全员降薪 总部员工按薪资分档降薪10%-30% 直营分公司办公室职员降薪50% 董事长称整体降幅不到10% [6][7] - 合众新能源管理人否认山子高科重组哪吒汽车 山子高科仅为意向投资人之一 合众新能源破产重整案尚未确定重组投资人 [10] - 中国自行车和电动自行车社会保有量约5.8亿辆 其中电动自行车约3.8亿辆 全国每日因两轮出行减少碳排放约1万吨 [12][13] 金融市场表现 - 美股三大指数收盘涨跌不一 道指涨0.57% 纳指跌0.33% 标普500跌0.1% 热门中概股多数上涨且百度涨超11% [13] 消费与产业趋势 - 月饼行业向全年消费场景转型 中国现存月饼相关企业达2.01万家 广东以超2000家注册量位居第一 [16] - 海底捞多款儿童套餐标注部分预加工 产品由中央厨房统一生产配送至门店再烹制 以确保安全与口味稳定性 [8][9] - 绿茶餐厅撤下本店无预制菜现点现做广告语 外卖餐具上无预制菜字样被涂黑 但工作人员称烤鸡等招牌菜为现做 [4][5]
刚刚!DeepSeek梁文锋论文登上《Nature》封面了!
是说芯语· 2025-09-17 23:35
研究论文发表 - DeepSeek-R1推理模型研究论文登上《自然》期刊封面 由团队共同完成 梁文锋担任通讯作者[1] 模型训练细节 - 论文披露更多模型训练细节 并回应模型发布初期的蒸馏质疑[3] - 基座模型DeepSeek-V3 Base训练数据全部来自互联网 可能包含GPT-4生成结果但非有意为之 无专门蒸馏环节[5] - 提供训练过程中减轻数据污染的详细流程 证明未在训练数据中有意包含基准测试[5] 行业地位与评价 - DeepSeek-R1成为全球首个经过同行评审的主流大语言模型 打破主流大模型未经独立同行评审的空白[3] - 《自然》杂志认为同行评审是抑制AI行业过度炒作的有效方式 因厂商无法验证的宣传可能对社会带来真实风险[5] 模型安全性 - 公司对DeepSeek-R1安全性进行全面评估 证明其安全性领先同期发布的前沿模型[5]
DeepSeek梁文锋论文登上《自然》封面
第一财经· 2025-09-17 23:23
研究突破 - DeepSeek-R1推理模型研究论文登上国际权威期刊《自然》封面[2] - 论文披露更多模型训练细节并正面回应蒸馏质疑[3] - 该模型成为全球首个经过同行评审的主流大语言模型[3] 行业地位 - Nature评价称DeepSeek打破主流大模型缺乏独立同行评审的空白[3] - 目前几乎所有主流大语言模型尚未经过独立同行评审[3]