过程奖励模型
搜索文档
登顶多模态推理榜MMMU,UCSD新方法超越GPT-5、Gemini
36氪· 2025-09-19 06:58
技术突破与核心创新 - DreamPRM-1.5在数学推理权威测评MMMU上获得第一名,其核心创新在于将过程奖励模型的监督机制从文本推理扩展至多模态场景 [1] - 该框架通过双层优化设计,将数据样本的权重作为可学习参数,动态调整不同样本在训练中的影响,以抑制噪声样本的负面影响并充分利用高质量样本 [1][7][11] - 研究团队提出了两种互补的实例级重加权实现方案:Instance Table为每个样本设独立权重参数,适合小规模数据;Instance Net使用小型MLP网络预测权重,参数量固定且更适合大规模训练 [8][10] 性能表现与基准测试 - 在MMMU基准测试中,以InternVL3-1B为基础模型的DreamPRM-15(Instance Table版本)取得了84.6%的整体准确率,显著超越基线GPT-5-mini w/ thinking的80.0%,提升幅度达4.6个百分点 [15][16] - DreamPRM-1.5的性能超过了GPT-5 w/ thinking(84.2%)和Gemini 2.5 Pro Deep-Think(84.0%)等顶级闭源模型,展现出其技术优势 [3][18] - 对比实验显示,不使用重加权的VanillaPRM方法准确率仅为79.1%,而经典的Self-consistency方法为81.4%,均低于DreamPRM-1.5,验证了实例加权策略的有效性 [15][16] 方法细节与实现 - 模型采用生成式奖励机制,对推理过程的每一步输出“+”或“-”标记来评估合理性,并通过softmax计算置信度,最终对整条推理链的步骤分数进行聚合 [12][17] - 训练流程包括冷启动阶段(使用20k样本进行有监督微调)和后续的100k步双层优化迭代,整个训练在单张NVIDIA A100上耗时约72小时完成 [13][14] - 元数据集采用MMMU-Pro的标准分割,使用其测试集数据生成候选推理链作为元数据集,用于指导上层优化中的权重更新 [13]
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
机器之心· 2025-07-10 10:49
技术突破 - DreamPRM由加州大学圣地亚哥分校团队开发,在MathVista数学推理测评中排名第一,核心成员包括Qi Cao和Pengtao Xie等[1] - 采用双层优化框架动态调整数据域权重,抑制低质量数据影响,强化高信息密度数据域贡献,实现数据质量与覆盖率平衡[2] - 解决了多模态场景下分布偏移远超纯文本的问题,通过可学习参数优化数据域权重分布[4] 方法创新 - 构建可微分双层优化问题,下层在15个训练域上进行PRM参数训练,上层使用覆盖30学科183子领域的元数据集评估泛化能力[12][13] - 形成自适应正反馈循环:高质量推理数据域权重提升(如M3CoT达1.49),简单样本域权重下降(如AI2D小于0.8)[14][20] - 蒙特卡洛监督信号计算中间推理步骤质量概率估计,使用域加权MSE损失更新模型参数[13] 性能表现 - 在MathVista测试中DreamPRM+o4-mini(8 CoTs)准确率达85.2%,显著超越人类基准60.3%和其他模型[6][16] - 五项基准测试全面领先:MathVista(57.4)、WeMath(68.9)、MathVision(22.1)、MMVET(61.4)、MMSTAR(62.3)[16] - 使80亿参数InternVL模型超越GPT-4v和Gemini-1.5等大型闭源模型,小模型实现大模型性能[16] 应用优势 - 通用框架可与任何多模态大语言模型集成,在o4-mini模型上准确率从80.6%提升至85.2%[6][17] - 候选推理链数量增加带来持续性能提升,从k=1到k=8准确率增长3.6个百分点[17][19] - 细粒度过程监督机制超越自洽性校验等传统方法,验证逐步评分的关键作用[16] 研究成果 - 论文标题为《DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning》,已在arXiv发布[7] - 代码开源在GitHub平台,项目地址为github.com/coder-qicao/DreamPRM[7] - 方法平均提升基础模型性能4%,在高难度数学推理任务表现尤为突出[22]