Workflow
实例级重加权
icon
搜索文档
登顶多模态推理榜MMMU,UCSD新方法超越GPT-5、Gemini
36氪· 2025-09-19 06:58
技术突破与核心创新 - DreamPRM-1.5在数学推理权威测评MMMU上获得第一名,其核心创新在于将过程奖励模型的监督机制从文本推理扩展至多模态场景 [1] - 该框架通过双层优化设计,将数据样本的权重作为可学习参数,动态调整不同样本在训练中的影响,以抑制噪声样本的负面影响并充分利用高质量样本 [1][7][11] - 研究团队提出了两种互补的实例级重加权实现方案:Instance Table为每个样本设独立权重参数,适合小规模数据;Instance Net使用小型MLP网络预测权重,参数量固定且更适合大规模训练 [8][10] 性能表现与基准测试 - 在MMMU基准测试中,以InternVL3-1B为基础模型的DreamPRM-15(Instance Table版本)取得了84.6%的整体准确率,显著超越基线GPT-5-mini w/ thinking的80.0%,提升幅度达4.6个百分点 [15][16] - DreamPRM-1.5的性能超过了GPT-5 w/ thinking(84.2%)和Gemini 2.5 Pro Deep-Think(84.0%)等顶级闭源模型,展现出其技术优势 [3][18] - 对比实验显示,不使用重加权的VanillaPRM方法准确率仅为79.1%,而经典的Self-consistency方法为81.4%,均低于DreamPRM-1.5,验证了实例加权策略的有效性 [15][16] 方法细节与实现 - 模型采用生成式奖励机制,对推理过程的每一步输出“+”或“-”标记来评估合理性,并通过softmax计算置信度,最终对整条推理链的步骤分数进行聚合 [12][17] - 训练流程包括冷启动阶段(使用20k样本进行有监督微调)和后续的100k步双层优化迭代,整个训练在单张NVIDIA A100上耗时约72小时完成 [13][14] - 元数据集采用MMMU-Pro的标准分割,使用其测试集数据生成候选推理链作为元数据集,用于指导上层优化中的权重更新 [13]