DeepSeek-R1-0528更新官方详解:思考更深、推理更强

模型升级概述 - DeepSeek-R1-0528 基于 DeepSeek V3 Base 模型进行升级,显著提升了思维深度与推理能力 [1] - 新版模型在数学、编程与通用逻辑等基准测评中取得国内领先成绩,接近国际顶尖模型如 o3 与 Gemini-2.5-Pro [1] 性能表现 - 在 AIME 2024 数学竞赛 pass@1 中得分为 91.4,略低于 OpenAI-03 的 91.6,但高于 Gemini-2.5-Pro-0506 的 90.8 [2] - 在 AIME 2025 数学竞赛 pass@1 中得分为 87.5,较旧版 R1 的 70.0 提升 17.5 个百分点 [2] - GPQA Diamond 科学测试 pass@1 得分为 81.0,略低于 OpenAI-03 的 83.3 和 Gemini-2.5-Pro-0506 的 83.0 [2] - LiveCodeBench 代码生成 pass@1 得分为 73.3,低于 OpenAI-03 的 77.3,但高于 Gemini-2.5-Pro-0506 的 71.8 [2] 技术优化 - 新版模型在 AIME 2025 测试中每题平均使用 23K tokens,较旧版的 12K tokens 增加近一倍,显示思维深度增强 [3] - 针对"幻觉"问题优化,在改写润色、总结摘要等场景中幻觉率降低 45~50% [3] - 对议论文、小说、散文等文体进行优化,能输出更长、结构更完整的长篇作品,写作风格更贴近人类偏好 [3]