字节Seed发布最强数学模型：一招“打草稿”，IMO银牌变金牌

鱼羊发自凹非寺量子位 | 公众号 QbitAI 字节最新数学推理专用模型，刚刚刷新战绩：拿下IMO金牌成绩。 Scaling Law 加持下，这个名为 Seed Prover 1.5 的模型，在16.5小时内，顺利解决IMO 2025的前5道题目，在仅失一题的情况下拿到35 分，达到今年IMO的金牌线。这一成绩与7月官方认证的IMO金牌"选手"谷歌Gemini打平。而字节自己的前代模型，当时的成绩是3天完成了6道题目中的4道，以及一道题的部分证明，达到银牌成绩。同时，Seed Prover 1.5也在北美本科级别数学竞赛Putnam这一基准上，大幅刷新了SOTA成绩。模型尚未开源，但技术报告已经公开。值得关注的是，Seed Prover 1.5强调了大规模强化学习给数学模型带来的性能提升，也证明，在推理阶段增加计算资源，可以显著提高解题率。即，验证了测试时Scaling和强化学习训练时的Scaling的有效性。 Seed Prover 1.5为了平衡两种方法的优缺点，提出了一种全新的Agentic Prover架构：模型将Lean语言视为一种工具，且在证明过程中可以自主地调用其他多种工具 ...