DeepSeek首次回应“蒸馏OpenAI”质疑
第一财经·2025-09-18 05:34

核心观点 - DeepSeek-R1研究论文登上《Nature》封面,成为全球首个经过同行评审的主流大语言模型[3][11] - 公司回应了模型发布之初关于蒸馏OpenAI的质疑,强调训练数据仅来自普通网页和电子书,不包含任何合成数据[6] - 研究公开了仅靠强化学习就能激发大模型推理能力的重要成果,提供了一种不依赖大量监督数据的新思路[11][13] 论文发布与行业影响 - DeepSeek-R1研究论文于2025年9月18日登上国际权威期刊《Nature》封面[3] - 该模型已成为全球最受欢迎的开源推理模型,Hugging Face下载量超1090万次[10] - 论文经过独立同行评审,有助于打消AI行业基准测试可被操控的疑虑[11] - 这是全球首个经过同行评审的主流大语言模型,为行业建立了公开分享的规范先例[10][11] 技术成本与效率 - DeepSeek-R1训练总成本仅29.4万美元,折合人民币约200万元[9][10] - 具体成本构成:DeepSeek-R1-Zero训练20.2万美元,SFT数据集创建1万美元,DeepSeek-R1训练8.2万美元[10] - 训练使用64×8张H800 GPU,DeepSeek-R1-Zero耗时约198小时,DeepSeek-R1耗时约80小时[10] - 即便加上训练基础模型V3的约600万美元成本,总金额仍远低于竞争对手模型的数千万美元[10] 技术方法与创新 - 研究证明仅通过大规模强化学习即可显著提升模型推理能力,无需监督微调作为冷启动[11][13] - 采用群组相对策略优化(GRPO)降低训练成本,设计奖励机制引导模型先推理后给出答案[13] - 模型在强化学习中学会自我验证和反思,通过检查性能来提高编程和科学问题的表现[13] - 开发团队使用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行微调,显著增强了小模型的推理能力[13] 数据来源争议回应 - 公司明确表示DeepSeek-V3-Base训练数据仅来自普通网页和电子书,不包含任何合成数据[6] - 在预训练冷却阶段没有故意加入OpenAI生成的合成数据,所有数据都通过网页抓取[6] - 承认可能有一些网页包含大量OpenAI模型生成的答案,导致基础模型间接受益于其他强大模型的知识[8] - 预训练数据集包含大量数学和编程相关内容,表明模型已接触到大量有推理痕迹的数据[8]