Workflow
中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花了200万
量子位·2025-09-18 00:51

核心成就与行业地位 - 公司成为首家登上《Nature》封面的中国大模型企业,创始人担任通讯作者,标志着中国AI研究的国际突破 [2] - 全球范围内仅有极少数企业(如DeepMind)曾通过AlphaGo、AlphaFold等成果获得类似荣誉 [3] - 模型被Nature认证为"首个经历同行评审的大型语言模型",开创行业先例 [5] - 研究被赞为"几乎影响所有在大语言模型中使用强化学习的研究",体现其方法论的开创性 [6] - 开源模型在Hugging Face下载量达1090万次,居开源模型下载量第一,GitHub Star数达91.1K [7] 训练成本与效率突破 - 总训练成本仅29.4万美元(折合人民币208万元),使用512张H800 GPU [5][10] - R1-Zero和R1分别训练198小时和80小时,按H800每GPU小时2美元租赁价计算 [10] - 具体成本分配:R1-Zero耗202K美元(101K GPU小时),SFT数据创建耗10K美元(5K GPU小时),R1耗82K美元(41K GPU小时) [11] - 660B参数规模的模型以不足30万美元成本完成,显著低于行业千万美元级投入 [12][13] 技术方法与架构创新 - 采用纯强化学习(RL)框架,仅基于最终答案正确性提供奖励信号,不依赖人工标注推理轨迹 [19] - 使用GRPO(Group Relative Policy Optimization)作为强化学习框架,提升模型推理能力 [19] - 通过多阶段训练:冷启动数据微调→强化学习训练→拒绝采样生成SFT数据→重新训练基础模型 [25][26] - 提出模型蒸馏技术,将大模型推理能力迁移至小模型(如Qwen2.5-32B),性能优于直接应用强化学习 [29] 性能表现与基准测试 - R1-Zero在AIME 2024上pass@1分数从15.6%提升至71.0%,多数表决后达86.7%,与OpenAI-o1相当 [21] - 在MATH-500测试中pass@1达95.9%,优于OpenAI-o1-0912的94.8% [23] - R1与OpenAI-o1-1217性能不相上下,在多项基准测试中达到顶尖水平 [27] - 蒸馏模型性能随参数规模提升:32B版本在AIME 2024 pass@1达72.6%,70B版本在CodeForces评级达1633 [30] 数据构建与安全性 - 数据集涵盖数学(26K题)、编程(17K题)、STEM(22K题)、逻辑(15K题)、通用(66K题)五类 [15][16][18] - 数学数据包含定量推理题和竞赛题,编程数据包含算法题和代码修复问题,STEM数据覆盖物理化生等多学科 [18] - 安全性评估显示模型固有安全水平与GPT-4o相当,结合风险控制系统后可进一步提升 [18] - 公开详细安全评估,涵盖多语言安全性、越狱攻击鲁棒性等维度 [22] 开源贡献与行业影响 - 公开R1和R1-Zero模型权重,并开源基于Qwen2.5和Llama3系列的蒸馏模型 [30] - 推动中国AI研究从顶会(如CVPR、ICLR)向Nature、Science级成果跃升 [7] - 低成本高效训练范式挑战行业"巨额投入才能打造顶级AI模型"的传统认知 [13]