字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌
量子位·2025-12-25 06:08
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 字节最新数学推理专用模型,刚刚刷新战绩:拿下IMO金牌成绩。 Scaling Law 加持下,这个名为 Seed Prover 1.5 的模型,在16.5小时内,顺利解决IMO 2025的前5道题目,在仅失一题的情况下拿到35 分,达到今年IMO的金牌线。 这一成绩与7月官方认证的IMO金牌"选手"谷歌Gemini打平。而字节自己的前代模型,当时的成绩是3天完成了6道题目中的4道,以及一道题 的部分证明,达到银牌成绩。 同时,Seed Prover 1.5也在北美本科级别数学竞赛Putnam这一基准上,大幅刷新了SOTA成绩。 模型尚未开源,但技术报告已经公开。 值得关注的是,Seed Prover 1.5强调了大规模强化学习给数学模型带来的性能提升,也证明,在推理阶段增加计算资源,可以显著提高解题 率。 即,验证了测试时Scaling和强化学习训练时的Scaling的有效性。 Seed Prover 1.5为了平衡两种方法的优缺点,提出了一种全新的Agentic Prover架构: 模型将Lean语言视为一种工具,且在证明过程中可以自主地调用其他多种工具 ...