Workflow
DeepSeek 创始人梁文锋在《自然》杂志回应质疑,R1 训练真 29.4 万美金
Seek .Seek .(US:SKLTY) 新浪财经·2025-09-19 00:03

学术成就与行业认可 - DeepSeek团队的研究成果登上Nature封面,论文主题为通过强化学习激发大语言模型推理能力 [1][3] - Nature发表评论文章对DeepSeek-R1的创新性给予高度评价,称其开创了AI推理新范式 [1][3] - 该模型成为全球首个经过同行评审的主流大语言模型,审稿人认为这一先例有助于系统风险评估 [5][8] 技术突破与创新 - 采用纯强化学习框架DeepSeek-R1-Zero,摒弃传统监督微调(SFT)阶段,仅通过答案正确性给予奖励信号 [10] - 训练成本仅29.4万美元(含20.2万美元Zero阶段+1万美元SFT数据创建+8.2万美元其他成本),总成本远低于行业巨头 [6][7] - 使用GRPO(组相对策略优化)算法替代传统PPO,通过组内竞争机制降低资源消耗并保持训练稳定性 [23][24] 性能表现与能力进化 - 在AIME 2024数学竞赛中,模型准确率从初始15.6%提升至77.9%,结合自洽解码技术后达86.7% [10] - 训练过程中出现"顿悟时刻",模型自主增加思考链长度(最高达数百token)并涌现自我反思、替代解法探索等高级策略 [14][16] - 经过多阶段训练后,在AlpacaEval 2.0和Arena-Hard基准测试中性能提升17%-25%,同时保持数学编程领域顶尖水平 [21] 训练方法论 - 采用四阶段训练流程:冷启动微调、第一轮RL强化推理、大规模SFT混合非推理数据、第二轮RL对齐人类偏好 [18][19] - 设计双轨奖励系统:推理任务采用基于规则的严格奖励(避免奖励投机),通用任务采用基于模型的奖励 [25][26] - 关键训练参数包括学习率3×10⁻⁶、KL散度系数0.001、批次大小512,并在8200步时将上下文长度从32K扩展至65K token [31][34] 市场反响与行业影响 - 开源后在Hugging Face平台下载量突破1090万次,成为最受欢迎模型 [5] - 引发OpenAI质疑可能使用ChatGPT输出训练,但审稿人认可其方法独立性并通过复现验证有效性 [37][39] - 被评价为"开启革命",多国实验室正尝试将该方法扩展至数学编码之外领域 [42]