Workflow
大语言模型同行评审
icon
搜索文档
刚刚,DeepSeek-R1论文登上Nature封面,通讯作者梁文锋
机器之心· 2025-09-17 17:00
核心观点 - DeepSeek-R1的研究论文登上《自然》期刊封面,标志着其研究成果获得顶级学术认可[1] - 该模型是首个通过权威学术期刊同行评审的大语言模型,其“程序价值”可能比科学价值更为深远,为行业建立了可复现流程和扎实证据的新标准[8][11][12] - 模型采用强化学习训练,在极少人工输入下实现了自我验证和反思能力,在编程和研究生水平科学问题上表现优异[7] 技术方法与创新 - 开发了无需监督微调冷启动的DeepSeek-R1-Zero,通过大规模强化学习显著提升推理能力[15] - 采用群组相对策略优化降低训练成本,不需要使用与策略模型同样大小的评估模型[16] - 设计准确度和格式两种互补的奖励机制,引导模型先给出推理过程再提供最终答案[17][18] - 模型展现出自我进化能力,生成数百到数千个推理token,自然产生反思能力和探索不同解题方法的高级行为[19][20] - 通过蒸馏技术使小模型具备推理能力,使用80万个样本对Qwen和Llama等开源模型微调,显著增强小模型性能[29] 性能表现 - 在MMLU-Pro测试中获得84.0分,超过Claude-3.5-Sonnet的78.0分和GPT-4o的72.6分[30] - 在AIME 2024数学测试中达到79.8分,接近OpenAI o1-mini的79.2分,远超Claude-3.5-Sonnet的16.0分[30] - Codeforces评分达到2029,接近OpenAI o1-1217的2061分,远超GPT-4o的759分[30] - 蒸馏后的Qwen-32B模型在AIME 2024达到72.6分,Llama-70B达到70.0分,显示技术可有效迁移[31] 行业影响 - 同行评审作为公正“守门人”,要求AI公司从自我宣传转向用扎实证据和可复现流程支持声明[10] - 将大语言模型纳入独立同行评审体系是从“技术竞赛”迈向“科学纪律”的关键一步,有助于遏制行业乱象、建立公众信任[12] - 为行业提供了通过严格评审验证模型可靠性与实用价值的先例,推动其他公司效仿[8]