Workflow
多阶段强化学习
icon
搜索文档
国产AI拿下国际物理奥赛金牌,13项顶级竞赛豪取12金1银,划重点:开源
量子位· 2025-11-22 03:07
模型性能突破 - 上海人工智能实验室推出的P1-235B-A22B模型在IPhO 2025理论考试中获得21.2/30分,成为首个达到国际物理奥林匹克竞赛金牌线的开源模型,仅次于Gemini-2.5-Pro与GPT-5 [1][3] - 在包含最新13项顶级物理竞赛的HiPhO基准上,P1-235B-A22B单一模型取得12金1银的成绩,与Gemini-2.5-Pro并列第一,超过GPT-5的11金 [34][35] - 引入PhysicsMinions智能体框架后,P1-235B-A22B平均成绩从35.9分提升至38.4分,在所有33个顶流模型中排名第一,超过Gemini-2.5-Pro的37.7分和GPT-5的37.4分 [5][38] - 在中国物理奥林匹克CPhO 2025人工评分中,P1-235B-A22B获得227/320分,显著超过当届全国金牌第一名人类选手的199分 [6][41] - 轻量级模型P1-30B-A3B同样表现优异,取得8金4银1铜的成绩,排名开源模型第三,超过部分闭源模型 [38] 技术方法论 - 团队构建了高质量的物理训练数据集,包含5065道奥赛级文本物理题,其中4126道为物理奥赛真题,939道来自竞赛教材,覆盖五大领域和二十五个子领域 [11][13] - 题目复杂度极高,平均题干长度为367个token,最长可达3386个token;平均解答长度为349个token,最长可达5519个token [12][13] - 采用多阶段强化学习流程,使用为长链推理优化过的GSPO方法,通过将每个题目上的若干条解答作为一个组来构建优势函数,缓解奖励稀疏问题 [19][20] - 训练过程中引入基于题目难度的动态数据筛选机制,只保留基座模型通过率在0到0.7之间的题目,并逐步扩展模型的探索范围和可生成的最大长度 [23] - 针对训练与推理阶段的概率偏差问题,引入了Truncated Importance Sampling进行校正 [28] 智能体框架创新 - 设计了专为物理推理的协同进化多智能体系统PhysicsMinions,包含视觉工作室、逻辑工作室和审查工作室三个交互式模块 [30] - 在纯文本模型P1的应用中,逻辑工作室实例化P1作为求解器,审查工作室同样使用P1担任审查器,通过自我改进机制优化解答 [33] - 系统采用循环审查流程,直到解答连续通过预设次数的审查,显著提高了推理稳定性与最终表现 [31] 数据集与评测基准 - 团队构建了HiPhO高难度评测集,覆盖2024–2025年最新13场物理赛事的理论题,包括IPhO、APhO、EuPhO等国际和区域性高难赛事 [34] - 评测集包含33个顶流模型进行对比,其中11个为闭源模型,22个为开源模型 [34] - 为确保数据质量,团队采用Gemini-2.5-Flash、Claude-3.7-Sonnet、GPT-4o三大模型交叉验证答案,并进行人工检查 [17] 开源策略与跨领域价值 - 团队承诺全链路开源,包括模型、算法、评测集以及智能体框架 [9] - 定向的物理推理训练不仅没有损害模型的通用能力,反而让P1在数学、STEM、代码和通用推理多个任务上表现优于基座模型,显示出跨领域的迁移价值 [42]
RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward
机器之心· 2025-10-21 03:43
研究背景与问题定义 - 多模态大模型在高分辨率、结构密集的视觉信息(如地铁图)理解上面临挑战,容易出现看错线路、漏站、重复路线等推理幻觉 [3] - 传统强化学习方法在路径规划任务中面临奖励极度稀疏的困境,导致训练不稳定且效率低下 [3] RewardMap框架核心设计 - 框架包含两大核心组件:难度感知的细粒度奖励和多阶段强化学习 [10] - 采用课程式训练策略,先从易于获得稠密信号的问题类型开始,逐步迁移到复杂的路径规划任务 [10] - 奖励函数由格式合规、最终正确性和细节项三部分组成,其中细节项权重系数为α=0.5 [11] - 细节项奖励对起点/终点正确性、线路名称匹配、换乘站点合理性、路线分段数等要素分别评分,形成连续型信号而非全或无的评判 [11] 数据集构建 - 构建ReasonMap-Plus数据集,覆盖30座城市,包含4018个问题样本 [6] - 数据集明确区分五类细粒度题型(两类Local Counting、Global Counting、两类True/False),并为强化学习阶段提供细密监督 [6] - 数据集包含易/中/难三级难度标签,在训练/测试划分上保持城市与难度分布的多样性与均衡性 [6] 性能评估结果 - RewardMap在六项外部评测基准上均取得一致提升,在SpatialEval上的增幅最高达到+13.51% [13] - 在Qwen2.5-VL-7B-Instruct模型上,RewardMap相比基线RL在平均性能上提升+3.47% [14] - 质化对比显示,经过RewardMap训练的模型显著减少了视觉混淆和幻觉现象,在路线分段上更能匹配真实地图结构 [15] 应用价值与未来展望 - 该框架为高分辨率、强结构的视觉任务提供了一套可复用的强化学习范式 [17] - 基于地图数据的后训练被验证能提升多模态大模型的通用能力,未来这类真实数据将在模型不同训练阶段发挥更大作用 [18]