P1模型家族 - 财报，业绩电话会，研报，新闻

P1模型家族

搜索文档

量子位· 2025-11-22 03:07

模型性能突破 - 上海人工智能实验室推出的P1-235B-A22B模型在IPhO 2025理论考试中获得21.2/30分，成为首个达到国际物理奥林匹克竞赛金牌线的开源模型，仅次于Gemini-2.5-Pro与GPT-5 [1][3] - 在包含最新13项顶级物理竞赛的HiPhO基准上，P1-235B-A22B单一模型取得12金1银的成绩，与Gemini-2.5-Pro并列第一，超过GPT-5的11金 [34][35] - 引入PhysicsMinions智能体框架后，P1-235B-A22B平均成绩从35.9分提升至38.4分，在所有33个顶流模型中排名第一，超过Gemini-2.5-Pro的37.7分和GPT-5的37.4分 [5][38] - 在中国物理奥林匹克CPhO 2025人工评分中，P1-235B-A22B获得227/320分，显著超过当届全国金牌第一名人类选手的199分 [6][41] - 轻量级模型P1-30B-A3B同样表现优异，取得8金4银1铜的成绩，排名开源模型第三，超过部分闭源模型 [38] 技术方法论 - 团队构建了高质量的物理训练数据集，包含5065道奥赛级文本物理题，其中4126道为物理奥赛真题，939道来自竞赛教材，覆盖五大领域和二十五个子领域 [11][13] - 题目复杂度极高，平均题干长度为367个token，最长可达3386个token；平均解答长度为349个token，最长可达5519个token [12][13] - 采用多阶段强化学习流程，使用为长链推理优化过的GSPO方法，通过将每个题目上的若干条解答作为一个组来构建优势函数，缓解奖励稀疏问题 [19][20] - 训练过程中引入基于题目难度的动态数据筛选机制，只保留基座模型通过率在0到0.7之间的题目，并逐步扩展模型的探索范围和可生成的最大长度 [23] - 针对训练与推理阶段的概率偏差问题，引入了Truncated Importance Sampling进行校正 [28] 智能体框架创新 - 设计了专为物理推理的协同进化多智能体系统PhysicsMinions，包含视觉工作室、逻辑工作室和审查工作室三个交互式模块 [30] - 在纯文本模型P1的应用中，逻辑工作室实例化P1作为求解器，审查工作室同样使用P1担任审查器，通过自我改进机制优化解答 [33] - 系统采用循环审查流程，直到解答连续通过预设次数的审查，显著提高了推理稳定性与最终表现 [31] 数据集与评测基准 - 团队构建了HiPhO高难度评测集，覆盖2024–2025年最新13场物理赛事的理论题，包括IPhO、APhO、EuPhO等国际和区域性高难赛事 [34] - 评测集包含33个顶流模型进行对比，其中11个为闭源模型，22个为开源模型 [34] - 为确保数据质量，团队采用Gemini-2.5-Flash、Claude-3.7-Sonnet、GPT-4o三大模型交叉验证答案，并进行人工检查 [17] 开源策略与跨领域价值 - 团队承诺全链路开源，包括模型、算法、评测集以及智能体框架 [9] - 定向的物理推理训练不仅没有损害模型的通用能力，反而让P1在数学、STEM、代码和通用推理多个任务上表现优于基座模型，显示出跨领域的迁移价值 [42]