置信度加权多数投票

搜索文档
比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次
36氪· 2025-08-25 03:50
核心技术创新 - 提出DeepConf方法 通过实时监控推理路径置信度动态淘汰低置信度路径并加权投票高置信度路径 实现准确率与效率的平衡 [1][8][9] - 在AIME 2025数学竞赛中首次实现开源模型无需外部工具即达到99.9%准确率 较基线97%提升2.9个百分点 [2][19] - 生成token数量削减84.7% 显著提升推理效率 [4][21] 性能表现 - 在5个模型×5个数据集上实现普适性增益 准确率平均提升约10% [10][19] - 在线模式下token节省33%-85% 其中GPT-OSS-120B模型在AIME 2025基准测试中减少85% token消耗仍保持97.9%准确率 [10][21] - 支持从8B到120B的各类开源模型 无需额外训练或超参数微调 [10][21] 工作模式 - 离线模式:根据置信度筛选已完成推理路径 按质量加权投票 在AIME 2025达到99.9%准确率 [14][19][31] - 在线模式:实时监控置信度 低于阈值立即停止生成 在AIME 2025基准测试中减少85% token消耗 [14][21][31] - 两种模式均通过滑动窗口评估局部置信度 结合整体趋势和最差步骤进行综合评分 [15][16] 算法机制 - 采用置信度加权多数投票机制 高置信度路径具有更高投票权重 公式为$V(a)=\chi_{t}\cdot I(\text{answer}(t)=a)$ [29][30] - 通过离线预热设定停止阈值s 在线生成时动态终止低于阈值路径 [35][36][37] - 自适应采样根据问题难度调整推理路径数量 一致性指标β<τ时继续生成 [38] 实际应用 - 在vLLM中仅需约50行代码即可集成 部署便捷 [10] - 以HMMT 25数学竞赛第11题为例 通过置信度轨迹筛选最终得出答案29 [6][11] - 支持并行思考 在保持高质量推理的同时显著降低计算成本 [6][13]