形式化定理证明新范式发布 - 阶跃星辰正式发布并开源形式化定理证明大模型StepFun-Prover-Preview-7B和StepFun-Prover-Preview-32B [1] - 模型采用基于环境反馈的强化学习训练流程,模拟人类推理过程中的实时交互与修正 [2] - 模型在基准测试集miniF2F-test上表现优异,32B版本pass@1通过率达70%,领先已知模型4%以上 [9][10] 技术架构与训练方法 两阶段监督微调 - 分阶段微调策略使模型获得工具使用基础能力 [4] - 第一阶段利用开源Lean 4数据建立代码补全能力 [5] - 第二阶段通过高质量冷启动数据训练模型理解数学题求解与Lean验证的交互 [5] 工具集成强化学习 - 采用GRPO算法进行强化学习训练,赋予模型自然语言解题能力 [5] - 模型可主动插入
模仿人类推理修正过程,阶跃星辰提出形式化证明新范式 | 开源
量子位·2025-08-15 10:05