P1模型家族
搜索文档
国产AI拿下国际物理奥赛金牌,13项顶级竞赛豪取12金1银,划重点:开源
量子位· 2025-11-22 03:07
模型性能突破 - 上海人工智能实验室推出的P1-235B-A22B模型在IPhO 2025理论考试中获得21.2/30分,成为首个达到国际物理奥林匹克竞赛金牌线的开源模型,仅次于Gemini-2.5-Pro与GPT-5 [1][3] - 在包含最新13项顶级物理竞赛的HiPhO基准上,P1-235B-A22B单一模型取得12金1银的成绩,与Gemini-2.5-Pro并列第一,超过GPT-5的11金 [34][35] - 引入PhysicsMinions智能体框架后,P1-235B-A22B平均成绩从35.9分提升至38.4分,在所有33个顶流模型中排名第一,超过Gemini-2.5-Pro的37.7分和GPT-5的37.4分 [5][38] - 在中国物理奥林匹克CPhO 2025人工评分中,P1-235B-A22B获得227/320分,显著超过当届全国金牌第一名人类选手的199分 [6][41] - 轻量级模型P1-30B-A3B同样表现优异,取得8金4银1铜的成绩,排名开源模型第三,超过部分闭源模型 [38] 技术方法论 - 团队构建了高质量的物理训练数据集,包含5065道奥赛级文本物理题,其中4126道为物理奥赛真题,939道来自竞赛教材,覆盖五大领域和二十五个子领域 [11][13] - 题目复杂度极高,平均题干长度为367个token,最长可达3386个token;平均解答长度为349个token,最长可达5519个token [12][13] - 采用多阶段强化学习流程,使用为长链推理优化过的GSPO方法,通过将每个题目上的若干条解答作为一个组来构建优势函数,缓解奖励稀疏问题 [19][20] - 训练过程中引入基于题目难度的动态数据筛选机制,只保留基座模型通过率在0到0.7之间的题目,并逐步扩展模型的探索范围和可生成的最大长度 [23] - 针对训练与推理阶段的概率偏差问题,引入了Truncated Importance Sampling进行校正 [28] 智能体框架创新 - 设计了专为物理推理的协同进化多智能体系统PhysicsMinions,包含视觉工作室、逻辑工作室和审查工作室三个交互式模块 [30] - 在纯文本模型P1的应用中,逻辑工作室实例化P1作为求解器,审查工作室同样使用P1担任审查器,通过自我改进机制优化解答 [33] - 系统采用循环审查流程,直到解答连续通过预设次数的审查,显著提高了推理稳定性与最终表现 [31] 数据集与评测基准 - 团队构建了HiPhO高难度评测集,覆盖2024–2025年最新13场物理赛事的理论题,包括IPhO、APhO、EuPhO等国际和区域性高难赛事 [34] - 评测集包含33个顶流模型进行对比,其中11个为闭源模型,22个为开源模型 [34] - 为确保数据质量,团队采用Gemini-2.5-Flash、Claude-3.7-Sonnet、GPT-4o三大模型交叉验证答案,并进行人工检查 [17] 开源策略与跨领域价值 - 团队承诺全链路开源,包括模型、算法、评测集以及智能体框架 [9] - 定向的物理推理训练不仅没有损害模型的通用能力,反而让P1在数学、STEM、代码和通用推理多个任务上表现优于基座模型,显示出跨领域的迁移价值 [42]