核心观点 - 深度求索公司通过纯强化学习方法训练出DeepSeek-R1推理模型 显著降低算力需求并提升复杂任务表现 [1][2][6] - 该模型在数学编程竞赛及STEM领域研究生水平问题中超越传统LLM表现 并具备指导小模型推理的能力 [2][17][19] - 训练成本仅294万美元 加上基础模型总成本600万美元 远低于同类模型数千万美元花费 [2] 技术方法 - 采用纯强化学习框架(GRPO) 无需人类标注推理轨迹 仅通过最终答案正确性获得奖励信号 [6][10] - 绕过了监督微调阶段 避免人类定义推理模式限制模型探索能力 [10] - 模型自主发展出验证反思和替代方法探索等复杂推理行为 [11] 性能表现 - 在美国数学邀请赛(AIME)测试中pass@1分数从156%提升至779% 自一致性解码后达867% 超越人类参赛者平均水平 [17] - 在编程竞赛及研究生水平生物物理化学问题中表现显著 [19] - 训练过程中出现"顿悟时刻" 模型开始使用"wait"标志发展出自我监控能力 [13] 模型优化 - 通过多阶段训练框架整合拒绝采样强化学习和监督微调 解决可读性差和语言混合问题 [23][24] - 在保持推理能力同时通过非推理数据使模型行为与人类偏好对齐 [24] 能力限制 - 结构化输出和工具使用能力不及现有模型 无法使用搜索引擎和计算器 [32] - 处理简单问题时存在"过度思考"现象 主要优化中英文时可能出现语言混合 [32] - 对提示词敏感 少样本提示会降低性能 尚未广泛应用于软件工程任务 [32] 行业影响 - 研究表明预训练检查点本身具有解决复杂推理任务的潜力 关键因素在于提供困难问题可靠验证器和充足强化学习资源 [29] - 高级推理行为在强化学习过程中有机涌现 为开发更自主自适应的大语言模型铺平道路 [29] - 纯强化学习方法有望解决任何可被验证器评估的任务 未来可能在复杂推理领域超越人类能力 [29]
梁文锋发表Nature封面论文:揭开DeepSeek-R1背后的科学原理——强化学习激励大模型推理能力
生物世界·2025-09-18 01:44