重磅！DeepSeek 梁文锋论文登上《自然》封面，正面回应蒸馏质疑

模型技术突破与行业地位 - DeepSeek-R1是全球首个经过同行评审的主流大语言模型，打破了主流大模型尚未经过独立同行评审的空白[4] - 模型采用强化学习进行训练，通过正确解答数学问题获得高分奖励、答错受惩罚的方式，学会了逐步解决问题的推理能力[5] - 该技术使模型能够自我验证和自我反思，在给出新问题答案前检查性能，从而提高了在编程和研究生水平科学问题上的表现[5] 学术认可与技术创新 - 研究成果获得《自然》封面推荐，被描述为在极少人工输入下训练出能进行推理的模型[5] - 模型训练方法解决了人工智能需要大量人工干预添加标签和注释的极大挑战[5] - 与今年1月发布的初版论文相比，本次论文披露了更多模型训练细节并回应了模型发布之初的蒸馏质疑[4]